ACADREASON: Esplorare i Limiti dei Modelli di Ragionamento con Problemi di Ricerca Accademica
ACADREASON: Exploring the Limits of Reasoning Models with Academic Research Problems
October 13, 2025
Autori: Xin Gui, King Zhu, JinCheng Ren, Qianben Chen, Zekun Moore Wang, Yizhi LI, Xinpeng Liu, Xiaowan Li, Wenli Ren, Linyu Miao, Tianrui Qin, Ziqi Shu, He Zhu, Xiangru Tang, Dingfeng Shi, Jiaheng Liu, Yuchen Eleanor Jiang, Minghao Liu, Ge Zhang, Wangchunshu Zhou
cs.AI
Abstract
Negli ultimi anni, l'attenzione della ricerca sui modelli linguistici di grandi dimensioni (LLM) e sugli agenti si è spostata sempre più dal dimostrare nuove capacità al ragionamento complesso e all'affrontare compiti impegnativi. Tuttavia, le valutazioni esistenti si concentrano principalmente su competizioni di matematica/codice o su compiti generali, mentre i benchmark accademici multi-dominio esistenti mancano di una profondità di ragionamento sufficiente, lasciando il campo privo di un benchmark rigoroso per il ragionamento di alto livello. Per colmare questa lacuna, introduciamo il benchmark Acadreason, progettato per valutare la capacità degli LLM e degli agenti di acquisire e ragionare sulla conoscenza accademica. Esso consiste in 50 problemi accademici annotati da esperti, distribuiti in cinque domini ad alto contenuto di ragionamento, tra cui informatica, economia, diritto, matematica e filosofia. Tutte le domande sono tratte da pubblicazioni di alto livello degli ultimi anni e sottoposte a un rigoroso processo di annotazione e controllo di qualità per garantire che siano sia impegnative che risolvibili. Abbiamo condotto valutazioni sistematiche su oltre 10 LLM e agenti mainstream. I risultati mostrano che la maggior parte degli LLM ha ottenuto un punteggio inferiore a 20 punti, con il più avanzato GPT-5 che ha raggiunto solo 16 punti. Sebbene gli agenti abbiano ottenuto punteggi più alti, nessuno ha superato i 40 punti. Ciò dimostra l'attuale divario di capacità tra LLM e agenti nei compiti di ricerca accademica super-intelligente e mette in evidenza le sfide di Acadreason.
English
In recent years, the research focus of large language models (LLMs) and
agents has shifted increasingly from demonstrating novel capabilities to
complex reasoning and tackling challenging tasks. However, existing evaluations
focus mainly on math/code contests or general tasks, while existing
multi-domain academic benchmarks lack sufficient reasoning depth, leaving the
field without a rigorous benchmark for high-level reasoning. To fill this gap,
we introduce the Acadreason benchmark, designed to evaluate the ability of LLMs
and agents to acquire and reason over academic knowledge. It consists of 50
expert-annotated academic problems across five high-reasoning domains,
including computer science, economics, law, mathematics, and philosophy. All
questions are sourced from top-tier publications in recent years and undergo
rigorous annotation and quality control to ensure they are both challenging and
answerable. We conduct systematic evaluations of over 10 mainstream LLMs and
agents. The results show that most LLMs scored below 20 points, with even the
cutting-edge GPT-5 achieving only 16 points. While agents achieved higher
scores, none exceeded 40 points. This demonstrates the current capability gap
between LLMs and agents in super-intelligent academic research tasks and
highlights the challenges of Acadreason.