首页 > IT资讯

首个AI高考全卷评测结果发布:最高分303 数学全不及格


据悉,OpenCompass发布了首个大模型高考全卷评测结果。上海人工智能实验室旗下司南评测体系OpenCompass选取了7个大模型进行高考“语数外”全卷能力测试。语数外三科加起来的满分为420分!

此次高考测试结果显示:

阿里通义千问2-72B排名第一,为303分;

OpenAI的GPT-4o排名第二,得分296分;

上海人工智能实验室的书生·浦语2.0排名第三;

三个大模型的得分率均超过70%。

来自法国大模型初创公司的Mistral排名末尾。

从结果来看,大模型的语文、英语考试水平普遍不错,但数学都不及格,最高分也只有75分。

本文链接:https://www.zhanque.net/note/5136.html