ACADREASON: Исследование границ моделей рассуждений на примере академических исследовательских задач
ACADREASON: Exploring the Limits of Reasoning Models with Academic Research Problems
October 13, 2025
Авторы: Xin Gui, King Zhu, JinCheng Ren, Qianben Chen, Zekun Moore Wang, Yizhi LI, Xinpeng Liu, Xiaowan Li, Wenli Ren, Linyu Miao, Tianrui Qin, Ziqi Shu, He Zhu, Xiangru Tang, Dingfeng Shi, Jiaheng Liu, Yuchen Eleanor Jiang, Minghao Liu, Ge Zhang, Wangchunshu Zhou
cs.AI
Аннотация
В последние годы фокус исследований в области больших языковых моделей (LLM) и агентов постепенно смещается от демонстрации новых возможностей к сложным рассуждениям и решению сложных задач. Однако существующие методы оценки в основном сосредоточены на математических/программных соревнованиях или общих задачах, тогда как существующие междисциплинарные академические тесты недостаточно глубоки с точки зрения рассуждений, оставляя область без строгого эталона для высокоуровневого мышления. Чтобы заполнить этот пробел, мы представляем тест Acadreason, разработанный для оценки способности LLM и агентов приобретать и рассуждать на основе академических знаний. Он состоит из 50 экспертно аннотированных академических задач, охватывающих пять областей, требующих глубокого мышления: информатика, экономика, право, математика и философия. Все вопросы взяты из ведущих публикаций последних лет и проходят строгую аннотацию и контроль качества, чтобы гарантировать их сложность и возможность ответа. Мы провели систематическую оценку более чем 10 популярных LLM и агентов. Результаты показывают, что большинство LLM набрали менее 20 баллов, а даже передовая модель GPT-5 достигла лишь 16 баллов. Хотя агенты показали более высокие результаты, ни один из них не превысил 40 баллов. Это демонстрирует текущий разрыв в возможностях между LLM и агентами в задачах сверхинтеллектуального академического исследования и подчеркивает сложность теста Acadreason.
English
In recent years, the research focus of large language models (LLMs) and
agents has shifted increasingly from demonstrating novel capabilities to
complex reasoning and tackling challenging tasks. However, existing evaluations
focus mainly on math/code contests or general tasks, while existing
multi-domain academic benchmarks lack sufficient reasoning depth, leaving the
field without a rigorous benchmark for high-level reasoning. To fill this gap,
we introduce the Acadreason benchmark, designed to evaluate the ability of LLMs
and agents to acquire and reason over academic knowledge. It consists of 50
expert-annotated academic problems across five high-reasoning domains,
including computer science, economics, law, mathematics, and philosophy. All
questions are sourced from top-tier publications in recent years and undergo
rigorous annotation and quality control to ensure they are both challenging and
answerable. We conduct systematic evaluations of over 10 mainstream LLMs and
agents. The results show that most LLMs scored below 20 points, with even the
cutting-edge GPT-5 achieving only 16 points. While agents achieved higher
scores, none exceeded 40 points. This demonstrates the current capability gap
between LLMs and agents in super-intelligent academic research tasks and
highlights the challenges of Acadreason.