按术数分栏查看模型评测进度。当前开放八字,奇门与六壬暂为预留入口,后续补充独立 benchmark 内容。
先把已经完成的数据集与模型结果独立出来展示,未来新增奇门、六壬时可以直接在这里扩展。
当前页面所有已展示内容都属于八字评测分栏,覆盖论文数据集、开源评测脚本、模型成绩对比与赛题案例探索。
面向易学全领域的旗舰微调模型。基于海量真实命理案例进行指令微调(SFT)与对齐训练, 深度理解干支逻辑、格局体系与流年神煞推演。当前评测仅覆盖八字维度,更多术数评测持续扩展中。
主流通用大模型在同一评测集上的成绩参考,均通过 OpenRouter API 直接调用,未做针对性微调。
命理推理需要精通干支、五行、格局等专业知识,即使最强通用模型也仅略高于随机水平(25%)。
这正是我们通过领域专精微调解决的核心难题。