网站首页长胜乡新铺乡长宁县窝沿乡夏乡 bzyzzg

当前位置：首页 >

如何看待机器之心重测高考数学全卷，Gemini夺冠，豆包DeepSeek并列第二？

2025-06-21 08:40:18 次

当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。

你看这是前两天的测试结果，突出了一个政治正确，6款大模型，OpenAI的o3倒数第一，我当时看到的时候就觉得很奇怪，o3好歹也是曾经的一代王者，高考数学这种题它排名这么低怕不是有什么猫腻。

我们就拿单选题的第五题来测试下，因为这道题除了o3，其他的国产模型都答对了。

这是第五题的原题，正确答案是A. - 1/2。

这是之前的第三方的测试结果，6个模型…。

如何看待机器之心重测高考数学全卷，Gemini夺冠，豆包DeepSeek并列第二？

上一篇 : 为什么国内程序员不喜欢写单元测试？

上一篇 : 为什么国内程序员不喜欢写单元测试？ >

上一篇 : 为什么国内程序员不喜欢写单元测试？

25岁的时候，刚工作，因为小错误被领导骂了。自责，难受，睡...

2025-06-26
3个中国程序员 vs 3个美国程序员，不得不承认，差距太大了...

2025-06-26
...

| 能分享一下你写过的rust项目吗？ |

实际工作中，2020年的时候用 Rust 在 ARM 设备上...
查看详情>>

| 为什么欧美影视喜欢露点？ |
| Electron 做游戏客户端的潜力有多大？ |
| 为什么国内的黄***站不被查封？是难发现吗？ |
| 跟一对情侣合租的感受？ |
| 有谁组装NAS时，尝试过的最低配置是什么？ |
| python与nodejs哪个性能高？ |
| 用K8s的公司有多少人会部署K8s？ |
| 如何成为氛围感美女？ |
| 如何评价腾讯元宝桌面端使用 Rust 的 Tauri 框架？ |
| 字节跳动辞退原豆包大模型负责人乔木，被曝婚内出轨下属，如何看待这一处理结果？ |

...

[ 查看详细 ]

我在汽车工厂打工更累，熬夜十二个小时，连续上三个星期，流水线...

2025-06-26

在父亲节到来之际，叫父3版本出来了，只能说放弃助人情结，嘲笑...

2025-06-26

不会吧…我不太清楚什么情况，只是我在 ant-design-...

2025-06-26

SD转译Win游戏的难度跟Mac比根本不是一个量级的。 SD...

2025-06-26

关注我们

添加微信好友，关注最新动态

如何看待机器之心重测高考数学全卷，Gemini夺冠，豆包DeepSeek并列第二？_广西壮族自治区桂林市平乐县夫陈辟过卫生设施建设有限公司

扫一扫关注我们

菜单导航: 长胜乡; 新铺乡; 长宁县; 窝沿乡; 夏乡; bzyzzg

联系我们: QQ：; 微信：; 地址：

网站地图: Sitemap; 友情链接

网站备案号：