ACADREASON : Explorer les limites des modèles de raisonnement avec des problèmes de recherche académique
ACADREASON: Exploring the Limits of Reasoning Models with Academic Research Problems
October 13, 2025
papers.authors: Xin Gui, King Zhu, JinCheng Ren, Qianben Chen, Zekun Moore Wang, Yizhi LI, Xinpeng Liu, Xiaowan Li, Wenli Ren, Linyu Miao, Tianrui Qin, Ziqi Shu, He Zhu, Xiangru Tang, Dingfeng Shi, Jiaheng Liu, Yuchen Eleanor Jiang, Minghao Liu, Ge Zhang, Wangchunshu Zhou
cs.AI
papers.abstract
Ces dernières années, l’attention de la recherche sur les grands modèles de langage (LLMs) et les agents s’est progressivement déplacée de la démonstration de nouvelles capacités vers le raisonnement complexe et la résolution de tâches difficiles. Cependant, les évaluations existantes se concentrent principalement sur des concours de mathématiques ou de programmation, ou sur des tâches générales, tandis que les benchmarks académiques multi-domaines actuels manquent de profondeur en termes de raisonnement, laissant le domaine sans un benchmark rigoureux pour le raisonnement de haut niveau. Pour combler cette lacune, nous introduisons le benchmark Acadreason, conçu pour évaluer la capacité des LLMs et des agents à acquérir et à raisonner sur des connaissances académiques. Il se compose de 50 problèmes académiques annotés par des experts, répartis dans cinq domaines exigeant un raisonnement approfondi, notamment l’informatique, l’économie, le droit, les mathématiques et la philosophie. Toutes les questions sont issues de publications de premier plan ces dernières années et ont subi un processus rigoureux d’annotation et de contrôle qualité pour garantir qu’elles sont à la fois stimulantes et résolubles. Nous avons mené des évaluations systématiques de plus de 10 LLMs et agents grand public. Les résultats montrent que la plupart des LLMs ont obtenu moins de 20 points, avec même le GPT-5 de pointe atteignant seulement 16 points. Bien que les agents aient obtenu des scores plus élevés, aucun n’a dépassé 40 points. Cela met en évidence l’écart actuel de capacités entre les LLMs et les agents dans les tâches de recherche académique super-intelligentes et souligne les défis posés par Acadreason.
English
In recent years, the research focus of large language models (LLMs) and
agents has shifted increasingly from demonstrating novel capabilities to
complex reasoning and tackling challenging tasks. However, existing evaluations
focus mainly on math/code contests or general tasks, while existing
multi-domain academic benchmarks lack sufficient reasoning depth, leaving the
field without a rigorous benchmark for high-level reasoning. To fill this gap,
we introduce the Acadreason benchmark, designed to evaluate the ability of LLMs
and agents to acquire and reason over academic knowledge. It consists of 50
expert-annotated academic problems across five high-reasoning domains,
including computer science, economics, law, mathematics, and philosophy. All
questions are sourced from top-tier publications in recent years and undergo
rigorous annotation and quality control to ensure they are both challenging and
answerable. We conduct systematic evaluations of over 10 mainstream LLMs and
agents. The results show that most LLMs scored below 20 points, with even the
cutting-edge GPT-5 achieving only 16 points. While agents achieved higher
scores, none exceeded 40 points. This demonstrates the current capability gap
between LLMs and agents in super-intelligent academic research tasks and
highlights the challenges of Acadreason.