网站地图官方微信:
网站首页 三兴镇 汊河镇 象山镇 羊亭镇 百丈乡 西峰区

当前位置: 首页 >

如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?

当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。

你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。

我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。

这是第五题的原题,正确答案是A. - 1/2。

这是之前的第三方的测试结果,6个模型…。

如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?

  • | 北京日报点名批评“苏超”过度娱乐化,它是否管的太宽了?为什么无良媒体不会被查封取缔? |

    不得不感慨,传统体制内还是有高人啊。 我个人悲观的看法,苏...

    查看详情>>
  • | MiniMax Week第三天推出通用 Agent,体验如何?对行业会带来哪些影响? |

  • | 中餐炒菜那么好吃,为什么欧美人不学去? |

  • | 公司规定所有接口都用 post 请求,这是为什么? |

  • | 胸大的女孩子有什么烦恼? |

  • | 本人女20,平胸跟男生一样怎么办 ? |

  • | 怎么看待北京大龄单身女突破80w? |

  • | 既然C#等开源语言,为啥***le还要弄个基本上一模一样的Swift? |

  • | 当初中俄为什么不摧毁朝鲜的核设施,让朝鲜拥有了自己的核武器? |

  • | 买到烂尾楼到底该有多绝望? |

  • | 27寸显示器是否有必要到4K? |

  • 去游泳的时候见过一个,165左右,小头宽肩细腰胯宽腿直肤白,...

    2025-06-23
  • 轴体命名这件事情我一直不知道在吐槽什么,有人问现在为什么要用...

    2025-06-23
  • 非常看好rust,先说论点 因为rust入门难 复杂业务太繁...

    2025-06-23
  • 以前我也觉得中餐无敌,国外那些肉那么一大块放炉子上烤,肯定又...

    2025-06-23

关注我们

添加微信好友,关注最新动态