0530-v22 模型横评报告 · 50 题事实核查

0530-v22

8.166

平均分 / 10

第一组: 33
单独第一: 15
垫底: 4
平均排名组: 1.38
事实均分: 8.46
事实≤6: 2

0530-v15

8.15

平均分 / 10

第一组: 31
单独第一: 14
垫底: 5
平均排名组: 1.4
事实均分: 8.4
事实≤6: 2

ds-main

7.182

平均分 / 10

第一组: 4
单独第一: 3
垫底: 45
平均排名组: 2.42
事实均分: 6.85
事实≤6: 20

结论

综合平均分最高的是 0530-v22。事实正确性均分最高的是 0530-v22。详情可在下方逐行展开查看。

Schema 校验

未发现结构问题。

事实性风险样本

correctness ≤ 6

Row	模型	事实分	总分	主要原因
45	0530-v15	1	1	答案为空，完全未回应用户问题，不可用
45	0530-v22	1	1	答案为空，完全未回应用户问题，不可用
50	ds-main	3	4.3	把无法核实的低音"下潜更深、量感更足"等说成基于实测的确定结论，未做任何不确定性降调，过度自信；对一个尚未公开发布、无权威评测的开发者测试版，编造了具体且细致的音频表现描述，事实可靠性最差
25	ds-main	4	6	事实判断与自己 history 给出的时间线自相矛盾：history 明确说2026年2月16日 Ragged Point–Big Sur 约45英里因滑坡再次封闭、官方未给重开时间，ds-main 却笃定说'现在能通行,1月14日已全线恢复'——直接无视了2月的封闭,把最关键的现状判断答错；为了迎合用户'要简短肯定'的情绪，给了过度自信、可能误导出行的结论(若用户据此规划全程沿1号公路会被困)
50	0530-v15	4	5.2	仍把"低音明显回来了、比26.4更扎实"作为确定结论陈述，缺乏对无权威来源这一点的降调；未点明 iOS 26.5 Developer Beta 信息本身难以核实、应以官方/实机为准
50	0530-v22	4.5	5.6	整体仍把"低音回来了、比26.4更扎实"当确定结论，未明说这些说法本身缺乏可核实来源；未给出"主力机求稳"之类的明确升级建议，帮助性略逊于 0530-v15
16	ds-main	5	6	凭空假装"我帮你搜一下…找到了"并贴出具体 APK 直链，模型名写成小写拼接 "hy-mt1.5-1.8b.1.25bit-gguf"，与官方仓库命名（AngelSlim/Hy-MT1.5-1.8B-1.25bit-GGUF）不一致，链接很可能失效或杜撰；结尾突兀冒出"去三亚玩正好用得上"，前文 history 并无三亚相关信息，属编造上下文，history_use 受损
30	ds-main	5	6.2	把没有公开的细节当确定事实说，例如「阿里自家的电商、支付、物流业务数据」直接作为千问训练语料、豆包「抖音/头条内容占了六成以上」——这些都没有官方披露依据，属于编造比例；没有像另两个答案那样区分「训练语料」和「检索/信源偏好」，容易误导
38	ds-main	5	6.3	英伟达部分明显失实：称'英伟达计划将下一代 GPU 的 I/O 裸片及先进封装交英特尔代工，2028 年落地'，而公开报道为英伟达约 50 亿美元投资但明确不含量产承诺、测试 18A 后未继续推进——把'未承诺代工'写成'已计划代工'属编造进展；苹果部分把'初步/评估协议'表述为较确定的代工协议并给出 2027 量产、14A 用于 iPhone 2028 等具体时间，过度确定
46	ds-main	5	5.5	事实风险：把考试包装成独立的'PLC证书'并给出'考点在厚德大厦'等具体地点，与官方信息（厦门工学院继续教育学院开展的是'电工（高级）职业技能等级认定'，PLC 是其中模块，采用课证融合）不一致，概念定位偏差；未承接 history 中已澄清的'PLC证 ≠ 独立职业技能证''智能制造工程是否必须'等要点，承接不足
2	ds-main	5.5	6.5	把"紫色空心箭头"等同于状态栏"白色箭头"，概念张冠李戴：iOS 状态栏箭头本身只有实心(蓝/黑/白随底色)与空心两类，紫色/灰色箭头是"设置-定位服务"列表里的标记，不是状态栏图标；给出"24小时空心箭头""几分钟自动消失"等具体时限，属于把不确定机制说成确定规则，未对用户质疑的"不确定"做正面承认
5	ds-main	5.5	6.5	采用的两个数据(2025-04-30=512.00、2026-04-30=456.40)与另两份答案差异较大，且更接近2025年初而非4月底的口径，疑似数据不准；只给单一口径，未说明数据来源或不确定性，结论(-10.9%)与 v15/v22 的-2%~-3%差距明显
47	ds-main	5.5	6.2	一边倒地强烈建议"别犹豫，考"，忽视了用户真实场景下证书性价比和方向选择，过于绝对；未承接 history：上一轮助手刚说"高级电工证已直接涵盖PLC能力"，本轮应正面处理"既然涵盖了为何还要再考"这个张力，却几乎没回应
4	ds-main	6	6.8	把"籍贯=浙江宁波宁海"当作确定事实，而该籍贯实为网络上有争议的话题（两省网友争抢，存在甘肃/浙江两说），表述过于笃定；"7岁起在父亲启蒙下接触台球"与公开资料"7岁在兰州接触斯诺克、启蒙教练是甘肃名将达海"存在出入，可能把父亲启蒙与教练混淆
7	ds-main	6	6.8	九洲港到澳门氹仔的客船航线近年长期停航/调整，"九洲港码头坐船约30分钟、90元"作为现行方式给出，时效性存疑；遗漏了"青茂口岸"这一近年高铁客流主力口岸，完整性不如另两者
10	ds-main	6	6.8	把65.2万标注为"2025年初"，口径错误——该数字来自《洞口县2024年国民经济和社会发展统计公报》，应为2024年末；凭空给出"2025全年65~66万""2026推算63.9~64.5万"等模型估算数字，属臆造，反而稀释了准确信息
19	ds-main	6	7.2	把主体直接坐实为 Amanda Askell 并大量描述其'亲自/雇人做对抗测试''主导撰写《Claude 宪法》'等细节，多为推断性叙述，存在编造具体流程之嫌；正文夹带未翻译的英文'Erroneous'，属语言瑕疵
22	ds-main	6	7	把'国际跆拳道联合会、国际拳击协会、国际跳棋协会'与柔道并列为'全面解禁、可升国旗奏国歌'，这几项(尤其跆拳道/拳击)的全面解禁缺乏可靠依据，疑似编造或过度概括；称 IOC 允许'23岁以下青年以本国国旗国歌队服参加2026达喀尔青奥会'——达喀尔青奥会原定2026年但已多次推迟(改至2026年10-11月)，且 IOC 一贯对俄只给中立身份，'以本国国旗国歌'参加青奥会的说法与 IOC 政策矛盾，存在事实错误
24	ds-main	6	7.3	把西界写成'翻过帕米尔高原伸到中亚锡尔河流域，连西域各国都被他控制'——明显夸大。匈奴鼎盛(冒顿时期)西界一般到阿尔泰山/天山,对西域是通过'西域都护/僮仆都尉'式的间接控制与纳贡,并非直接占据到锡尔河流域;'翻过帕米尔到锡尔河'属过度外推；未点明'匈奴是松散草原势力联盟、非固定边界国家'这一关键认知(v15/v22 都强调了)
27	ds-main	6	7	大量精确数字疑似编造或不可核实:'中芯7nm良率99.7%''14nm良率95%''AI芯片国产化率45%''信创CPU国产化率60%''2.5D/3D先进封装国产化率28%''设备整体国产化率35-45%'等——这类晶圆良率、细分国产化率均非公开权威披露,精确到小数点更显可疑；把不可核实的具体数字当成既定事实陈述,缺乏'据估计/约'等不确定限定,误导风险高
32	ds-main	6	6.8	核心判断不准确：把蓝色箭头解释为「有App正在使用位置（前台或后台）」，把白色解释为「没有App在主动获取、只是系统维持」——这与Apple实际机制不符。实际上白/黑箭头本身就表示有App此刻在用定位（颜色只是随状态栏背景变），蓝色更多是「App切到后台仍持续定位」或「使用期间」的强提醒；「白色=系统维持定位能力（Wi-Fi扫描辅助）」这一解释属推测性描述，无依据
33	ds-main	6	6.5	用户是中文用户、问「什么时候开始」，最该给北京时间，本答案只给当地日期6月11日，没换算成北京时间6月12日凌晨，针对性弱；说「揭幕战在墨西哥城举行」对，但未点出对阵（墨西哥vs南非），不如v15具体
36	ds-main	6	6.8	开头直接断言'是真的'，把仅为强暗示的传闻说成确定事实，与'嘘手势=未官宣'的实际状态不符；'4 月见面会做噤声手势'与公开报道（'张雪遇见哈蒙德'见面会被问五缸时比嘘的手势）大体吻合但表述把暗示当默认
41	ds-main	6	6.5	关键安全缺失：建议用拇指食指徒手捏螺壳，却完全没提淡水螺（尤其可能是福寿螺）可能携带寄生虫（广州管圆线虫等）、应避免徒手接触/接触后洗手的风险；'田螺活了几亿年'属空泛夸张，且不准确，对回答无帮助

两两胜负

对比	总分胜/负/平	事实正确性胜/负/平
ds-main vs 0530-v15	7 / 43 / 0	3 / 41 / 6
ds-main vs 0530-v22	4 / 46 / 0	2 / 41 / 7
0530-v15 vs 0530-v22	18 / 19 / 13	3 / 7 / 40

维度均分

维度	ds-main	0530-v15	0530-v22
相关性	8.45	8.85	8.84
上下文使用	7.2	8.04	8.06
事实正确性	6.85	8.4	8.46
逻辑	7.81	8.6	8.64
完整性	7.52	8.35	8.16
可读性	8.56	8.52	8.81
语言质量	8.62	8.64	8.72
帮助性	7.44	8.57	8.55

逐行结果

Row	排序	ds-main	0530-v15	0530-v22
1	0530-v15≈0530-v22 > ds-main	8	8.5	8.5
2	0530-v15 > 0530-v22 > ds-main	6.5	8.3	8
3	0530-v22 > 0530-v15 > ds-main	7.8	8.3	8.6
4	0530-v22 > 0530-v15 > ds-main	6.8	7.3	7.5
5	0530-v22 > 0530-v15 > ds-main	6.5	7.6	7.9
6	0530-v15 > 0530-v22 > ds-main	7.6	8.2	8
7	0530-v15 > 0530-v22 > ds-main	6.8	8.2	8
8	0530-v15 > 0530-v22 > ds-main	7.8	8.7	8.4
9	0530-v15 > 0530-v22 > ds-main	6.5	8.8	8.5
10	0530-v15≈0530-v22 > ds-main	6.8	9	9
11	0530-v22 > ds-main > 0530-v15	8.7	8.2	8.9
12	0530-v15≈0530-v22 > ds-main	8	8.6	8.6
13	0530-v15 > 0530-v22 > ds-main	8	8.7	8.4
14	0530-v15 > 0530-v22 > ds-main	8.1	8.9	8.6
15	0530-v22 > ds-main≈0530-v15	7.6	7.5	8.3
16	0530-v15 > 0530-v22 > ds-main	6	8.3	7.8
17	0530-v22 > 0530-v15 > ds-main	7	7.8	8.4
18	0530-v22≈ds-main > 0530-v15	8.4	8.2	8.6
19	0530-v22 > 0530-v15 > ds-main	7.2	8.3	8.6
20	0530-v22≈0530-v15 > ds-main	8	8.4	8.5
21	0530-v22≈0530-v15 > ds-main	8	8.5	8.5
22	0530-v22 > 0530-v15 > ds-main	7	8.3	8.6
23	0530-v22≈0530-v15 > ds-main	8	8.5	8.6
24	0530-v22≈0530-v15 > ds-main	7.3	8.5	8.6
25	0530-v22 > 0530-v15 > ds-main	6	8.4	8.6
26	0530-v22≈0530-v15 > ds-main	7.2	8.5	8.5
27	0530-v22≈0530-v15 > ds-main	7	8.5	8.5
28	0530-v15≈0530-v22 > ds-main	6.8	8.4	8.4
29	0530-v22 > 0530-v15 > ds-main	6.8	8.2	8.4
30	0530-v15≈0530-v22 > ds-main	6.2	8.6	8.5
31	0530-v22 > 0530-v15 > ds-main	7	7.8	8.3
32	0530-v22 > 0530-v15 > ds-main	6.8	8.4	8.5
33	0530-v15 > 0530-v22 > ds-main	6.5	8.8	8.3
34	0530-v15≈0530-v22 > ds-main	7	8.4	8.4
35	ds-main > 0530-v15 > 0530-v22	8.8	8.2	7.8
36	0530-v15 > 0530-v22 > ds-main	6.8	8.7	8.5
37	0530-v15≈0530-v22 > ds-main	7.8	8.7	8.7
38	0530-v15 > 0530-v22 > ds-main	6.3	8.6	8.4
39	0530-v15≈0530-v22 > ds-main	7.6	8.6	8.6
40	0530-v15≈0530-v22 > ds-main	7.3	8.2	8.2
41	0530-v15≈0530-v22 > ds-main	6.5	8.4	8.3
42	0530-v22 > ds-main≈0530-v15	8	7.8	8.4
43	0530-v22 > 0530-v15 > ds-main	6.8	8.4	8.7
44	0530-v15 > 0530-v22 > ds-main	7.3	8.6	8.3
45	ds-main > 0530-v15≈0530-v22	7.5	1	1
46	0530-v15≈0530-v22 > ds-main	5.5	8	8
47	0530-v15 > 0530-v22 > ds-main	6.2	8.4	8.1
48	0530-v15 > ds-main≈0530-v22	8	8.6	7.9
49	ds-main > 0530-v15 > 0530-v22	8.7	8.5	8
50	0530-v22 > 0530-v15 > ds-main	4.3	5.2	5.6