DeepResearch Arena : Le premier examen des capacités de recherche des LLM à travers des tâches ancrées dans des séminaires
DeepResearch Arena: The First Exam of LLMs' Research Abilities via Seminar-Grounded Tasks
September 1, 2025
papers.authors: Haiyuan Wan, Chen Yang, Junchi Yu, Meiqi Tu, Jiaxuan Lu, Di Yu, Jianbao Cao, Ben Gao, Jiaqing Xie, Aoran Wang, Wenlong Zhang, Philip Torr, Dongzhan Zhou
cs.AI
papers.abstract
Les agents de recherche approfondie suscitent un intérêt croissant pour leur capacité à orchestrer des workflows de recherche multi-étapes, englobant la synthèse de la littérature, la conception méthodologique et la vérification empirique. Malgré ces avancées, évaluer fidèlement leurs capacités de recherche reste un défi majeur, en raison de la difficulté à collecter des questions de recherche de pointe qui captent véritablement l'attention et la curiosité intellectuelle des chercheurs. Pour combler cette lacune, nous présentons DeepResearch Arena, un benchmark ancré dans des séminaires académiques qui capturent des discours et des interactions riches entre experts, reflétant mieux les environnements de recherche réels et réduisant le risque de fuite de données. Pour construire automatiquement DeepResearch Arena, nous proposons un système de Génération Hiérarchique de Tâches par Agents Multiples (MAHTG) qui extrait des inspirations dignes de recherche à partir de transcriptions de séminaires. Le système MAHTG transforme ensuite ces inspirations en tâches de recherche de haute qualité, garantissant la traçabilité de la formulation des tâches tout en filtrant le bruit. Grâce au système MAHTG, nous avons constitué DeepResearch Arena avec plus de 10 000 tâches de recherche de haute qualité issues de plus de 200 séminaires académiques, couvrant 12 disciplines telles que la littérature, l'histoire et les sciences. Notre évaluation approfondie montre que DeepResearch Arena présente des défis substantiels pour les agents actuels de pointe, avec des écarts de performance clairs observés entre différents modèles.
English
Deep research agents have attracted growing attention for their potential to
orchestrate multi-stage research workflows, spanning literature synthesis,
methodological design, and empirical verification. Despite these strides,
evaluating their research capability faithfully is rather challenging due to
the difficulty of collecting frontier research questions that genuinely capture
researchers' attention and intellectual curiosity. To address this gap, we
introduce DeepResearch Arena, a benchmark grounded in academic seminars that
capture rich expert discourse and interaction, better reflecting real-world
research environments and reducing the risk of data leakage. To automatically
construct DeepResearch Arena, we propose a Multi-Agent Hierarchical Task
Generation (MAHTG) system that extracts research-worthy inspirations from
seminar transcripts. The MAHTG system further translates research-worthy
inspirations into high-quality research tasks, ensuring the traceability of
research task formulation while filtering noise. With the MAHTG system, we
curate DeepResearch Arena with over 10,000 high-quality research tasks from
over 200 academic seminars, spanning 12 disciplines, such as literature,
history, and science. Our extensive evaluation shows that DeepResearch Arena
presents substantial challenges for current state-of-the-art agents, with clear
performance gaps observed across different models.