DeepResearch Arena: Первая проверка исследовательских способностей языковых моделей через задачи, основанные на семинарах
DeepResearch Arena: The First Exam of LLMs' Research Abilities via Seminar-Grounded Tasks
September 1, 2025
Авторы: Haiyuan Wan, Chen Yang, Junchi Yu, Meiqi Tu, Jiaxuan Lu, Di Yu, Jianbao Cao, Ben Gao, Jiaqing Xie, Aoran Wang, Wenlong Zhang, Philip Torr, Dongzhan Zhou
cs.AI
Аннотация
Глубокие исследовательские агенты привлекают все больше внимания благодаря их потенциалу в организации многоэтапных исследовательских процессов, охватывающих синтез литературы, разработку методологий и эмпирическую проверку. Несмотря на эти достижения, достоверная оценка их исследовательских возможностей остается сложной задачей из-за трудностей в сборе актуальных исследовательских вопросов, которые действительно привлекают внимание и интеллектуальный интерес ученых. Для устранения этого пробела мы представляем DeepResearch Arena — эталонный набор данных, основанный на академических семинарах, которые фиксируют богатый экспертный дискурс и взаимодействие, что лучше отражает реальные исследовательские среды и снижает риск утечки данных. Для автоматического создания DeepResearch Arena мы предлагаем систему Multi-Agent Hierarchical Task Generation (MAHTG), которая извлекает исследовательские идеи из транскриптов семинаров. Система MAHTG преобразует эти идеи в высококачественные исследовательские задачи, обеспечивая прослеживаемость их формулировки и отфильтровывая шум. С помощью системы MAHTG мы создали DeepResearch Arena, содержащий более 10 000 высококачественных исследовательских задач из более чем 200 академических семинаров, охватывающих 12 дисциплин, таких как литература, история и наука. Наши обширные оценки показывают, что DeepResearch Arena представляет значительные вызовы для современных передовых агентов, с явными различиями в производительности между различными моделями.
English
Deep research agents have attracted growing attention for their potential to
orchestrate multi-stage research workflows, spanning literature synthesis,
methodological design, and empirical verification. Despite these strides,
evaluating their research capability faithfully is rather challenging due to
the difficulty of collecting frontier research questions that genuinely capture
researchers' attention and intellectual curiosity. To address this gap, we
introduce DeepResearch Arena, a benchmark grounded in academic seminars that
capture rich expert discourse and interaction, better reflecting real-world
research environments and reducing the risk of data leakage. To automatically
construct DeepResearch Arena, we propose a Multi-Agent Hierarchical Task
Generation (MAHTG) system that extracts research-worthy inspirations from
seminar transcripts. The MAHTG system further translates research-worthy
inspirations into high-quality research tasks, ensuring the traceability of
research task formulation while filtering noise. With the MAHTG system, we
curate DeepResearch Arena with over 10,000 high-quality research tasks from
over 200 academic seminars, spanning 12 disciplines, such as literature,
history, and science. Our extensive evaluation shows that DeepResearch Arena
presents substantial challenges for current state-of-the-art agents, with clear
performance gaps observed across different models.