ACADREASON: Explorando os Limites dos Modelos de Raciocínio com Problemas de Pesquisa Acadêmica
ACADREASON: Exploring the Limits of Reasoning Models with Academic Research Problems
October 13, 2025
Autores: Xin Gui, King Zhu, JinCheng Ren, Qianben Chen, Zekun Moore Wang, Yizhi LI, Xinpeng Liu, Xiaowan Li, Wenli Ren, Linyu Miao, Tianrui Qin, Ziqi Shu, He Zhu, Xiangru Tang, Dingfeng Shi, Jiaheng Liu, Yuchen Eleanor Jiang, Minghao Liu, Ge Zhang, Wangchunshu Zhou
cs.AI
Resumo
Nos últimos anos, o foco de pesquisa em modelos de linguagem de grande escala (LLMs) e agentes tem se deslocado progressivamente da demonstração de novas capacidades para o raciocínio complexo e a resolução de tarefas desafiadoras. No entanto, as avaliações existentes concentram-se principalmente em competições de matemática/código ou tarefas gerais, enquanto os benchmarks acadêmicos multidomínio atuais carecem de profundidade de raciocínio suficiente, deixando o campo sem um benchmark rigoroso para raciocínio de alto nível. Para preencher essa lacuna, introduzimos o benchmark Acadreason, projetado para avaliar a capacidade de LLMs e agentes de adquirir e raciocinar sobre conhecimento acadêmico. Ele consiste em 50 problemas acadêmicos anotados por especialistas, abrangendo cinco domínios de alto raciocínio, incluindo ciência da computação, economia, direito, matemática e filosofia. Todas as questões são extraídas de publicações de alto nível dos últimos anos e passam por um rigoroso processo de anotação e controle de qualidade para garantir que sejam desafiadoras e respondíveis. Realizamos avaliações sistemáticas de mais de 10 LLMs e agentes principais. Os resultados mostram que a maioria dos LLMs obteve pontuações abaixo de 20, com até mesmo o GPT-5 de ponta alcançando apenas 16 pontos. Embora os agentes tenham alcançado pontuações mais altas, nenhum ultrapassou 40 pontos. Isso demonstra a lacuna de capacidade atual entre LLMs e agentes em tarefas de pesquisa acadêmica superinteligente e destaca os desafios do Acadreason.
English
In recent years, the research focus of large language models (LLMs) and
agents has shifted increasingly from demonstrating novel capabilities to
complex reasoning and tackling challenging tasks. However, existing evaluations
focus mainly on math/code contests or general tasks, while existing
multi-domain academic benchmarks lack sufficient reasoning depth, leaving the
field without a rigorous benchmark for high-level reasoning. To fill this gap,
we introduce the Acadreason benchmark, designed to evaluate the ability of LLMs
and agents to acquire and reason over academic knowledge. It consists of 50
expert-annotated academic problems across five high-reasoning domains,
including computer science, economics, law, mathematics, and philosophy. All
questions are sourced from top-tier publications in recent years and undergo
rigorous annotation and quality control to ensure they are both challenging and
answerable. We conduct systematic evaluations of over 10 mainstream LLMs and
agents. The results show that most LLMs scored below 20 points, with even the
cutting-edge GPT-5 achieving only 16 points. While agents achieved higher
scores, none exceeded 40 points. This demonstrates the current capability gap
between LLMs and agents in super-intelligent academic research tasks and
highlights the challenges of Acadreason.