(资料图片)
“书生·浦语”联合团队选取了20余项评测对其进行检验,其中包含全球最具影响力的四个综合性考试评测集,对“书生·浦语”、清华大学的GLM-130B、Meta的LLaMA-65B、OpenAI的ChatGPT和GPT-4进行了全面测试。
6月7日,上海人工智能实验室(上海AI实验室)、商汤科技联合香港中文大学、复旦大学及上海交通大学发布千亿级参数大语言模型“书生·浦语”(InternLM),具有1040亿参数,在多项中文考试中取得超越ChatGPT的成绩,在数学考试中成绩明显领先于谷歌、Meta的大模型。
“书生·浦语”联合团队选取了20余项评测对其进行检验,其中包含全球最具影响力的四个综合性考试评测集:由伯克利加州大学等高校构建的多任务考试评测集MMLU;微软研究院推出的学科考试评测集AGIEval(含中国高考、司法考试及美国SAT、LSAT、GRE 和 GMAT等),AGIEval的19个评测大项中有9个大项是中国高考,通常也列为一个重要的评测子集AGIEval(GK);由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集C-Eval;以及由复旦大学研究团队构建的高考题目评测集Gaokao。
实验室联合团队对“书生·浦语”、清华大学的GLM-130B、Meta的LLaMA-65B、OpenAI的ChatGPT和GPT-4进行了全面测试,针对上述四个评测集的成绩对比如下(满分100分)。
标签:
“书生浦语”联合团队选取了20余项评测对其进行检验,其中包含全球最具
1 这次发短信主要有两个目的:一是锻炼指法;二是联络感情。现在很郑重
人生路上,曾历遍风霜。唏嘘感慨,曾充斥心房。呵护家人,用那坚强的臂
导读英特尔在2010年第一季度发布了凌动N450,主频为1 6Ghz,具有512KbL
有投资者在投资者互动平台提问:公司为什么不直接提供固体电解质PEO原
实施财政资金直达机制是创新宏观调控的重大举措
农行西藏分行一季度累计发放实体贷款达215.86亿元