ACADREASON : Explorer les limites des modèles de raisonnement avec des problèmes de recherche académique

papers.abstract

Ces dernières années, l’attention de la recherche sur les grands modèles de langage (LLMs) et les agents s’est progressivement déplacée de la démonstration de nouvelles capacités vers le raisonnement complexe et la résolution de tâches difficiles. Cependant, les évaluations existantes se concentrent principalement sur des concours de mathématiques ou de programmation, ou sur des tâches générales, tandis que les benchmarks académiques multi-domaines actuels manquent de profondeur en termes de raisonnement, laissant le domaine sans un benchmark rigoureux pour le raisonnement de haut niveau. Pour combler cette lacune, nous introduisons le benchmark Acadreason, conçu pour évaluer la capacité des LLMs et des agents à acquérir et à raisonner sur des connaissances académiques. Il se compose de 50 problèmes académiques annotés par des experts, répartis dans cinq domaines exigeant un raisonnement approfondi, notamment l’informatique, l’économie, le droit, les mathématiques et la philosophie. Toutes les questions sont issues de publications de premier plan ces dernières années et ont subi un processus rigoureux d’annotation et de contrôle qualité pour garantir qu’elles sont à la fois stimulantes et résolubles. Nous avons mené des évaluations systématiques de plus de 10 LLMs et agents grand public. Les résultats montrent que la plupart des LLMs ont obtenu moins de 20 points, avec même le GPT-5 de pointe atteignant seulement 16 points. Bien que les agents aient obtenu des scores plus élevés, aucun n’a dépassé 40 points. Cela met en évidence l’écart actuel de capacités entre les LLMs et les agents dans les tâches de recherche académique super-intelligentes et souligne les défis posés par Acadreason.

English

In recent years, the research focus of large language models (LLMs) and agents has shifted increasingly from demonstrating novel capabilities to complex reasoning and tackling challenging tasks. However, existing evaluations focus mainly on math/code contests or general tasks, while existing multi-domain academic benchmarks lack sufficient reasoning depth, leaving the field without a rigorous benchmark for high-level reasoning. To fill this gap, we introduce the Acadreason benchmark, designed to evaluate the ability of LLMs and agents to acquire and reason over academic knowledge. It consists of 50 expert-annotated academic problems across five high-reasoning domains, including computer science, economics, law, mathematics, and philosophy. All questions are sourced from top-tier publications in recent years and undergo rigorous annotation and quality control to ensure they are both challenging and answerable. We conduct systematic evaluations of over 10 mainstream LLMs and agents. The results show that most LLMs scored below 20 points, with even the cutting-edge GPT-5 achieving only 16 points. While agents achieved higher scores, none exceeded 40 points. This demonstrates the current capability gap between LLMs and agents in super-intelligent academic research tasks and highlights the challenges of Acadreason.

ACADREASON : Explorer les limites des modèles de raisonnement avec des problèmes de recherche académique

ACADREASON: Exploring the Limits of Reasoning Models with Academic Research Problems

papers.abstract

Support