ChatPaper.aiChatPaper

ACADREASON: 学術研究問題を用いた推論モデルの限界の探求

ACADREASON: Exploring the Limits of Reasoning Models with Academic Research Problems

October 13, 2025
著者: Xin Gui, King Zhu, JinCheng Ren, Qianben Chen, Zekun Moore Wang, Yizhi LI, Xinpeng Liu, Xiaowan Li, Wenli Ren, Linyu Miao, Tianrui Qin, Ziqi Shu, He Zhu, Xiangru Tang, Dingfeng Shi, Jiaheng Liu, Yuchen Eleanor Jiang, Minghao Liu, Ge Zhang, Wangchunshu Zhou
cs.AI

要旨

近年、大規模言語モデル(LLM)とエージェントの研究焦点は、新たな能力のデモンストレーションから、複雑な推論や困難なタスクへの取り組みへと次第に移行してきている。しかし、既存の評価は主に数学/コードコンテストや一般的なタスクに焦点を当てており、既存の多分野学術ベンチマークは十分な推論の深さを欠いており、高度な推論のための厳格なベンチマークが不足している。このギャップを埋めるため、我々は学術知識を獲得し推論する能力を評価するためのAcadreasonベンチマークを導入する。これは、コンピュータサイエンス、経済学、法学、数学、哲学の5つの高度な推論分野にわたる50の専門家による注釈付き学術問題で構成されている。全ての問題は近年のトップクラスの出版物から引用され、厳格な注釈と品質管理を経て、挑戦的かつ解答可能であることが保証されている。我々は10以上の主流のLLMとエージェントに対して系統的な評価を実施した。その結果、ほとんどのLLMは20点未満のスコアであり、最先端のGPT-5でさえ16点に留まった。エージェントはより高いスコアを達成したが、40点を超えるものはなかった。これは、超知的学術研究タスクにおけるLLMとエージェントの現在の能力ギャップを示しており、Acadreasonの課題を浮き彫りにしている。
English
In recent years, the research focus of large language models (LLMs) and agents has shifted increasingly from demonstrating novel capabilities to complex reasoning and tackling challenging tasks. However, existing evaluations focus mainly on math/code contests or general tasks, while existing multi-domain academic benchmarks lack sufficient reasoning depth, leaving the field without a rigorous benchmark for high-level reasoning. To fill this gap, we introduce the Acadreason benchmark, designed to evaluate the ability of LLMs and agents to acquire and reason over academic knowledge. It consists of 50 expert-annotated academic problems across five high-reasoning domains, including computer science, economics, law, mathematics, and philosophy. All questions are sourced from top-tier publications in recent years and undergo rigorous annotation and quality control to ensure they are both challenging and answerable. We conduct systematic evaluations of over 10 mainstream LLMs and agents. The results show that most LLMs scored below 20 points, with even the cutting-edge GPT-5 achieving only 16 points. While agents achieved higher scores, none exceeded 40 points. This demonstrates the current capability gap between LLMs and agents in super-intelligent academic research tasks and highlights the challenges of Acadreason.
PDF262October 14, 2025