ACADREASON: Erforschung der Grenzen von Reasoning-Modellen anhand akademischer Forschungsprobleme
ACADREASON: Exploring the Limits of Reasoning Models with Academic Research Problems
October 13, 2025
papers.authors: Xin Gui, King Zhu, JinCheng Ren, Qianben Chen, Zekun Moore Wang, Yizhi LI, Xinpeng Liu, Xiaowan Li, Wenli Ren, Linyu Miao, Tianrui Qin, Ziqi Shu, He Zhu, Xiangru Tang, Dingfeng Shi, Jiaheng Liu, Yuchen Eleanor Jiang, Minghao Liu, Ge Zhang, Wangchunshu Zhou
cs.AI
papers.abstract
In den letzten Jahren hat sich der Forschungsschwerpunkt bei großen Sprachmodellen (LLMs) und Agenten zunehmend von der Demonstration neuartiger Fähigkeiten hin zu komplexem Denken und der Bewältigung anspruchsvoller Aufgaben verlagert. Bisherige Evaluierungen konzentrieren sich jedoch hauptsächlich auf Mathematik-/Programmierwettbewerbe oder allgemeine Aufgaben, während bestehende multidisziplinäre akademische Benchmarks eine unzureichende Tiefe im Bereich des logischen Denkens aufweisen. Dies lässt das Feld ohne einen rigorosen Benchmark für hochrangiges Denken zurück. Um diese Lücke zu schließen, führen wir den Acadreason-Benchmark ein, der darauf abzielt, die Fähigkeit von LLMs und Agenten zur Aneignung und Anwendung akademischen Wissens zu bewerten. Er besteht aus 50 von Experten annotierten akademischen Problemen aus fünf anspruchsvollen Domänen, darunter Informatik, Wirtschaftswissenschaften, Recht, Mathematik und Philosophie. Alle Fragen stammen aus Top-Publikationen der letzten Jahre und durchlaufen eine strenge Annotation und Qualitätskontrolle, um sicherzustellen, dass sie sowohl herausfordernd als auch lösbar sind. Wir führen systematische Evaluierungen von über 10 gängigen LLMs und Agenten durch. Die Ergebnisse zeigen, dass die meisten LLMs unter 20 Punkte erzielten, wobei selbst das fortschrittlichste GPT-5 nur 16 Punkte erreichte. Während Agenten höhere Punktzahlen erzielten, überschritt keiner die 40-Punkte-Marke. Dies verdeutlicht die derzeitige Fähigkeitslücke zwischen LLMs und Agenten bei überintelligenten akademischen Forschungsaufgaben und unterstreicht die Herausforderungen von Acadreason.
English
In recent years, the research focus of large language models (LLMs) and
agents has shifted increasingly from demonstrating novel capabilities to
complex reasoning and tackling challenging tasks. However, existing evaluations
focus mainly on math/code contests or general tasks, while existing
multi-domain academic benchmarks lack sufficient reasoning depth, leaving the
field without a rigorous benchmark for high-level reasoning. To fill this gap,
we introduce the Acadreason benchmark, designed to evaluate the ability of LLMs
and agents to acquire and reason over academic knowledge. It consists of 50
expert-annotated academic problems across five high-reasoning domains,
including computer science, economics, law, mathematics, and philosophy. All
questions are sourced from top-tier publications in recent years and undergo
rigorous annotation and quality control to ensure they are both challenging and
answerable. We conduct systematic evaluations of over 10 mainstream LLMs and
agents. The results show that most LLMs scored below 20 points, with even the
cutting-edge GPT-5 achieving only 16 points. While agents achieved higher
scores, none exceeded 40 points. This demonstrates the current capability gap
between LLMs and agents in super-intelligent academic research tasks and
highlights the challenges of Acadreason.