网站地图官方微信:
网站首页 肃宁县 滕州市 渡普镇 恩平市 丰顺县 鱼乍乡

当前位置: 首页 >

如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?

当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。

你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。

我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。

这是第五题的原题,正确答案是A. - 1/2。

这是之前的第三方的测试结果,6个模型…。

如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?

  • | 养了近十年的草龟要不要放生? |

    放生?你送它终。 图一,刚捡来的时候,大概22-23年的时...

    查看详情>>
  • | 目前最流行的 rust web 框架是什么? |

  • | 什么鱼生命力顽强好养活? |

  • | 微软 VS Code 1.101 发布,集成 MCP 协议,这对用户体验有哪些改变? |

  • | 如何看待 Mac mini M4 支持可更换 SSD? |

  • | 为什么UC曾经是国内主流浏览器之一,但现在却逐渐销声匿迹了? |

  • | 程序员都在用什么显示器写代码? |

  • | 24-25 赛季 NBA 总决赛抢七,雷霆 103-91 步行者,夺得本赛季总冠军,如何评价这一结果? |

  • | Fabrice Bellard 是个什么水平的程序员? |

  • | 如何看待《捞女游戏》在线人数峰值近 7 万,仍位居国区热销第一? |

  • | 同样是对标安卓系统,为什么谷歌的Fuchsia死了,而华为的鸿蒙却愈发壮大? |

  • 不一定,我直接说一下实例对比一下,你就懂了 很多人是因为不具...

    2025-06-23
  • 我觉得反驳弃用的人没有想明白两个问题: 1、如何证明Mong...

    2025-06-23
  • Linux生态和FreeDesktop生态不一样。 SEL...

    2025-06-23
  • 微软卖的是服务啊,Windows Server是一种服务。 ...

    2025-06-23

关注我们

添加微信好友,关注最新动态