ACADREASON: 학술 연구 문제를 통해 추론 모델의 한계 탐구
ACADREASON: Exploring the Limits of Reasoning Models with Academic Research Problems
October 13, 2025
저자: Xin Gui, King Zhu, JinCheng Ren, Qianben Chen, Zekun Moore Wang, Yizhi LI, Xinpeng Liu, Xiaowan Li, Wenli Ren, Linyu Miao, Tianrui Qin, Ziqi Shu, He Zhu, Xiangru Tang, Dingfeng Shi, Jiaheng Liu, Yuchen Eleanor Jiang, Minghao Liu, Ge Zhang, Wangchunshu Zhou
cs.AI
초록
최근 몇 년 동안, 대규모 언어 모델(LLM)과 에이전트에 대한 연구 초점은 새로운 능력을 입증하는 것에서 복잡한 추론과 도전적인 과제 해결로 점차 이동해 왔습니다. 그러나 기존 평가는 주로 수학/코딩 대회나 일반적인 과제에 초점을 맞추고 있으며, 기존의 다중 도면 학술 벤치마크는 충분한 추론 깊이를 제공하지 못해 고수준 추론을 위한 엄격한 벤치마크가 부족한 상황입니다. 이러한 공백을 메우기 위해, 우리는 학술 지식을 습득하고 이를 기반으로 추론하는 LLM과 에이전트의 능력을 평가하기 위해 Acadreason 벤치마크를 소개합니다. 이 벤치마크는 컴퓨터 과학, 경제학, 법학, 수학, 철학 등 5개의 고수준 추론 도면에서 전문가가 주석을 단 50개의 학술 문제로 구성되어 있습니다. 모든 문제는 최근 몇 년간의 최상위 출판물에서 발췌되었으며, 도전적이면서도 답변이 가능하도록 엄격한 주석 및 품질 관리를 거쳤습니다. 우리는 10개 이상의 주류 LLM과 에이전트에 대한 체계적인 평가를 수행했습니다. 그 결과, 대부분의 LLM은 20점 미만의 점수를 기록했으며, 최첨단 GPT-5조차도 16점에 그쳤습니다. 에이전트는 더 높은 점수를 기록했지만, 40점을 넘는 경우는 없었습니다. 이는 초지능 학술 연구 과제에서 LLM과 에이전트 간의 현재 역량 격차를 보여주며, Acadreason의 도전 과제를 강조합니다.
English
In recent years, the research focus of large language models (LLMs) and
agents has shifted increasingly from demonstrating novel capabilities to
complex reasoning and tackling challenging tasks. However, existing evaluations
focus mainly on math/code contests or general tasks, while existing
multi-domain academic benchmarks lack sufficient reasoning depth, leaving the
field without a rigorous benchmark for high-level reasoning. To fill this gap,
we introduce the Acadreason benchmark, designed to evaluate the ability of LLMs
and agents to acquire and reason over academic knowledge. It consists of 50
expert-annotated academic problems across five high-reasoning domains,
including computer science, economics, law, mathematics, and philosophy. All
questions are sourced from top-tier publications in recent years and undergo
rigorous annotation and quality control to ensure they are both challenging and
answerable. We conduct systematic evaluations of over 10 mainstream LLMs and
agents. The results show that most LLMs scored below 20 points, with even the
cutting-edge GPT-5 achieving only 16 points. While agents achieved higher
scores, none exceeded 40 points. This demonstrates the current capability gap
between LLMs and agents in super-intelligent academic research tasks and
highlights the challenges of Acadreason.