

Google 推出的 Gemini 3.1 Pro 预览版在 Artificial Analysis 东谈主工智能指数中获得跳动地位,以 4 分之差杰出 Anthropic 的 Claude Opus 4.6。 这款模子在老本效益方面进展隆起,其启动用度不到竞争敌手的一半,并在十个评测类别中的六个类别排行第一,包括代理编码、常识、科学推理与物理学。 相较于前代模子,其幻觉率大幅下落了 38 个百分点,败露 Google 在模子可靠性上的显耀进展。
低功耗模子缩小企业启动老本
在启动完满指数测试的老本对比中,Gemini 3.1 Pro仅需892好意思元,远低于GPT-5.2的2,304好意思元以及Claude Opus 4.6的2,486好意思元。 测试数据败露,Gemini仅破钞5,700万个Token,远低于GPT-5.2的1.3亿个Token。 诚然如GLM-5等开源模子的老本更低(约547好意思元),但Gemini 3.1 Pro在服从与预算之间获得了极佳的均衡,突破了高服从AI模子势必陪同不菲代价的阛阓旧例。
骨子讹诈进展仍过时竞争敌手
{jz:field.toptypename/}
尽管在基准测试中进展优异,幸运彩app官方下载但Gemini 3.1 Pro在处罚试验宇宙的代理任务时,仍过时于Claude Sonnet 4.6、Opus 4.6以及GPT-5.2。 这反应出基准测试诚然能代表工夫参数的晋升,但在复杂的多设施任务中,Google 的模子仍有优化空间。 跟着2026年AI竞争投入尖锐化阶段,企业在聘用模子时不仅垂青跑分,更暖热在骨子坐褥环境中的扩展力。
伸开剩余33%
事实查核能力靠近恰当性挑战
基准测试的局限性在事实查核测试中尤为赫然。 在里面的查核测试中,Gemini 3.1 Pro的进展显耀逊于Claude Opus 4.6或GPT-5.2,仅能考证约四分之一的述说内容,其准确度致使低于Gemini 3 Pro。 这提示斥地者与企业用户,诚然模子在科学推理与编码上有所突破,但在信息准确性条款极高的场景下,仍需诞生专属的评测尺度,以确保AI输出的内容相宜真确情况。
发布于:广东省