ACADREASON: De Grenzen van Redeneermodellen Onderzoeken met Academische Onderzoeksproblemen
ACADREASON: Exploring the Limits of Reasoning Models with Academic Research Problems
October 13, 2025
Auteurs: Xin Gui, King Zhu, JinCheng Ren, Qianben Chen, Zekun Moore Wang, Yizhi LI, Xinpeng Liu, Xiaowan Li, Wenli Ren, Linyu Miao, Tianrui Qin, Ziqi Shu, He Zhu, Xiangru Tang, Dingfeng Shi, Jiaheng Liu, Yuchen Eleanor Jiang, Minghao Liu, Ge Zhang, Wangchunshu Zhou
cs.AI
Samenvatting
In de afgelopen jaren is de onderzoeksfocus van grote taalmodellen (LLM's) en agents steeds meer verschoven van het demonstreren van nieuwe mogelijkheden naar complex redeneren en het aanpakken van uitdagende taken. Bestaande evaluaties richten zich echter voornamelijk op wiskunde-/codewedstrijden of algemene taken, terwijl bestaande academische benchmarks voor meerdere domeinen onvoldoende redeneerdiepte bieden, waardoor het veld geen rigoureuze benchmark heeft voor hoogwaardig redeneren. Om deze leemte op te vullen, introduceren we de Acadreason-benchmark, die is ontworpen om het vermogen van LLM's en agents om academische kennis te verwerven en daarover te redeneren te evalueren. Deze bestaat uit 50 door experts geannoteerde academische problemen uit vijf domeinen die veel redeneervaardigheid vereisen, waaronder informatica, economie, recht, wiskunde en filosofie. Alle vragen zijn afkomstig uit toonaangevende publicaties van de afgelopen jaren en ondergaan een rigoureuze annotatie en kwaliteitscontrole om ervoor te zorgen dat ze zowel uitdagend als beantwoordbaar zijn. We voeren systematische evaluaties uit van meer dan 10 mainstream LLM's en agents. De resultaten laten zien dat de meeste LLM's minder dan 20 punten scoorden, waarbij zelfs de geavanceerde GPT-5 slechts 16 punten behaalde. Hoewel agents hogere scores behaalden, overschreed geen van hen de 40 punten. Dit toont de huidige kloof in capaciteit tussen LLM's en agents bij superintelligente academische onderzoektaken aan en benadrukt de uitdagingen van Acadreason.
English
In recent years, the research focus of large language models (LLMs) and
agents has shifted increasingly from demonstrating novel capabilities to
complex reasoning and tackling challenging tasks. However, existing evaluations
focus mainly on math/code contests or general tasks, while existing
multi-domain academic benchmarks lack sufficient reasoning depth, leaving the
field without a rigorous benchmark for high-level reasoning. To fill this gap,
we introduce the Acadreason benchmark, designed to evaluate the ability of LLMs
and agents to acquire and reason over academic knowledge. It consists of 50
expert-annotated academic problems across five high-reasoning domains,
including computer science, economics, law, mathematics, and philosophy. All
questions are sourced from top-tier publications in recent years and undergo
rigorous annotation and quality control to ensure they are both challenging and
answerable. We conduct systematic evaluations of over 10 mainstream LLMs and
agents. The results show that most LLMs scored below 20 points, with even the
cutting-edge GPT-5 achieving only 16 points. While agents achieved higher
scores, none exceeded 40 points. This demonstrates the current capability gap
between LLMs and agents in super-intelligent academic research tasks and
highlights the challenges of Acadreason.