ACADREASON: 学術研究問題を用いた推論モデルの限界の探求
ACADREASON: Exploring the Limits of Reasoning Models with Academic Research Problems
October 13, 2025
著者: Xin Gui, King Zhu, JinCheng Ren, Qianben Chen, Zekun Moore Wang, Yizhi LI, Xinpeng Liu, Xiaowan Li, Wenli Ren, Linyu Miao, Tianrui Qin, Ziqi Shu, He Zhu, Xiangru Tang, Dingfeng Shi, Jiaheng Liu, Yuchen Eleanor Jiang, Minghao Liu, Ge Zhang, Wangchunshu Zhou
cs.AI
要旨
近年、大規模言語モデル(LLM)とエージェントの研究焦点は、新たな能力のデモンストレーションから、複雑な推論や困難なタスクへの取り組みへと次第に移行してきている。しかし、既存の評価は主に数学/コードコンテストや一般的なタスクに焦点を当てており、既存の多分野学術ベンチマークは十分な推論の深さを欠いており、高度な推論のための厳格なベンチマークが不足している。このギャップを埋めるため、我々は学術知識を獲得し推論する能力を評価するためのAcadreasonベンチマークを導入する。これは、コンピュータサイエンス、経済学、法学、数学、哲学の5つの高度な推論分野にわたる50の専門家による注釈付き学術問題で構成されている。全ての問題は近年のトップクラスの出版物から引用され、厳格な注釈と品質管理を経て、挑戦的かつ解答可能であることが保証されている。我々は10以上の主流のLLMとエージェントに対して系統的な評価を実施した。その結果、ほとんどのLLMは20点未満のスコアであり、最先端のGPT-5でさえ16点に留まった。エージェントはより高いスコアを達成したが、40点を超えるものはなかった。これは、超知的学術研究タスクにおけるLLMとエージェントの現在の能力ギャップを示しており、Acadreasonの課題を浮き彫りにしている。
English
In recent years, the research focus of large language models (LLMs) and
agents has shifted increasingly from demonstrating novel capabilities to
complex reasoning and tackling challenging tasks. However, existing evaluations
focus mainly on math/code contests or general tasks, while existing
multi-domain academic benchmarks lack sufficient reasoning depth, leaving the
field without a rigorous benchmark for high-level reasoning. To fill this gap,
we introduce the Acadreason benchmark, designed to evaluate the ability of LLMs
and agents to acquire and reason over academic knowledge. It consists of 50
expert-annotated academic problems across five high-reasoning domains,
including computer science, economics, law, mathematics, and philosophy. All
questions are sourced from top-tier publications in recent years and undergo
rigorous annotation and quality control to ensure they are both challenging and
answerable. We conduct systematic evaluations of over 10 mainstream LLMs and
agents. The results show that most LLMs scored below 20 points, with even the
cutting-edge GPT-5 achieving only 16 points. While agents achieved higher
scores, none exceeded 40 points. This demonstrates the current capability gap
between LLMs and agents in super-intelligent academic research tasks and
highlights the challenges of Acadreason.