ACADREASON: Explorando los límites de los modelos de razonamiento con problemas de investigación académica
ACADREASON: Exploring the Limits of Reasoning Models with Academic Research Problems
October 13, 2025
Autores: Xin Gui, King Zhu, JinCheng Ren, Qianben Chen, Zekun Moore Wang, Yizhi LI, Xinpeng Liu, Xiaowan Li, Wenli Ren, Linyu Miao, Tianrui Qin, Ziqi Shu, He Zhu, Xiangru Tang, Dingfeng Shi, Jiaheng Liu, Yuchen Eleanor Jiang, Minghao Liu, Ge Zhang, Wangchunshu Zhou
cs.AI
Resumen
En los últimos años, el enfoque de investigación de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) y los agentes ha ido desplazándose cada vez más desde la demostración de capacidades novedosas hacia el razonamiento complejo y la resolución de tareas desafiantes. Sin embargo, las evaluaciones existentes se centran principalmente en concursos de matemáticas/código o tareas generales, mientras que los puntos de referencia académicos multidominio carecen de suficiente profundidad de razonamiento, dejando al campo sin un estándar riguroso para el razonamiento de alto nivel. Para llenar este vacío, presentamos el punto de referencia Acadreason, diseñado para evaluar la capacidad de los LLMs y los agentes para adquirir y razonar sobre conocimiento académico. Este consta de 50 problemas académicos anotados por expertos en cinco dominios de alto razonamiento, incluyendo ciencias de la computación, economía, derecho, matemáticas y filosofía. Todas las preguntas provienen de publicaciones de primer nivel en los últimos años y se someten a un riguroso proceso de anotación y control de calidad para garantizar que sean tanto desafiantes como respondibles. Realizamos evaluaciones sistemáticas de más de 10 LLMs y agentes principales. Los resultados muestran que la mayoría de los LLMs obtuvieron puntuaciones inferiores a 20 puntos, e incluso el avanzado GPT-5 logró solo 16 puntos. Aunque los agentes alcanzaron puntuaciones más altas, ninguno superó los 40 puntos. Esto demuestra la brecha de capacidades actual entre los LLMs y los agentes en tareas de investigación académica superinteligente y resalta los desafíos de Acadreason.
English
In recent years, the research focus of large language models (LLMs) and
agents has shifted increasingly from demonstrating novel capabilities to
complex reasoning and tackling challenging tasks. However, existing evaluations
focus mainly on math/code contests or general tasks, while existing
multi-domain academic benchmarks lack sufficient reasoning depth, leaving the
field without a rigorous benchmark for high-level reasoning. To fill this gap,
we introduce the Acadreason benchmark, designed to evaluate the ability of LLMs
and agents to acquire and reason over academic knowledge. It consists of 50
expert-annotated academic problems across five high-reasoning domains,
including computer science, economics, law, mathematics, and philosophy. All
questions are sourced from top-tier publications in recent years and undergo
rigorous annotation and quality control to ensure they are both challenging and
answerable. We conduct systematic evaluations of over 10 mainstream LLMs and
agents. The results show that most LLMs scored below 20 points, with even the
cutting-edge GPT-5 achieving only 16 points. While agents achieved higher
scores, none exceeded 40 points. This demonstrates the current capability gap
between LLMs and agents in super-intelligent academic research tasks and
highlights the challenges of Acadreason.