ChatPaper.aiChatPaper

DeepResearch Arena: Il Primo Test delle Capacità di Ricerca dei Modelli Linguistici attraverso Compiti Basati su Seminari

DeepResearch Arena: The First Exam of LLMs' Research Abilities via Seminar-Grounded Tasks

September 1, 2025
Autori: Haiyuan Wan, Chen Yang, Junchi Yu, Meiqi Tu, Jiaxuan Lu, Di Yu, Jianbao Cao, Ben Gao, Jiaqing Xie, Aoran Wang, Wenlong Zhang, Philip Torr, Dongzhan Zhou
cs.AI

Abstract

Gli agenti di ricerca avanzata hanno attirato un'attenzione crescente per il loro potenziale di orchestrare flussi di lavoro di ricerca multi-stadio, che spaziano dalla sintesi della letteratura, alla progettazione metodologica, fino alla verifica empirica. Nonostante questi progressi, valutare fedelmente la loro capacità di ricerca è piuttosto impegnativo a causa della difficoltà di raccogliere domande di ricerca all'avanguardia che catturino genuinamente l'attenzione e la curiosità intellettuale dei ricercatori. Per colmare questa lacuna, introduciamo DeepResearch Arena, un benchmark basato su seminari accademici che catturano un ricco discorso e interazione tra esperti, riflettendo meglio gli ambienti di ricerca reali e riducendo il rischio di perdita di dati. Per costruire automaticamente DeepResearch Arena, proponiamo un sistema di Generazione Gerarchica di Compiti Multi-Agente (MAHTG) che estrae ispirazioni degne di ricerca dalle trascrizioni dei seminari. Il sistema MAHTG traduce ulteriormente queste ispirazioni in compiti di ricerca di alta qualità, garantendo la tracciabilità della formulazione dei compiti di ricerca mentre filtra il rumore. Con il sistema MAHTG, abbiamo curato DeepResearch Arena con oltre 10.000 compiti di ricerca di alta qualità provenienti da più di 200 seminari accademici, che coprono 12 discipline, come letteratura, storia e scienza. La nostra valutazione estensiva mostra che DeepResearch Arena presenta sfide sostanziali per gli attuali agenti all'avanguardia, con evidenti differenze di prestazione osservate tra i diversi modelli.
English
Deep research agents have attracted growing attention for their potential to orchestrate multi-stage research workflows, spanning literature synthesis, methodological design, and empirical verification. Despite these strides, evaluating their research capability faithfully is rather challenging due to the difficulty of collecting frontier research questions that genuinely capture researchers' attention and intellectual curiosity. To address this gap, we introduce DeepResearch Arena, a benchmark grounded in academic seminars that capture rich expert discourse and interaction, better reflecting real-world research environments and reducing the risk of data leakage. To automatically construct DeepResearch Arena, we propose a Multi-Agent Hierarchical Task Generation (MAHTG) system that extracts research-worthy inspirations from seminar transcripts. The MAHTG system further translates research-worthy inspirations into high-quality research tasks, ensuring the traceability of research task formulation while filtering noise. With the MAHTG system, we curate DeepResearch Arena with over 10,000 high-quality research tasks from over 200 academic seminars, spanning 12 disciplines, such as literature, history, and science. Our extensive evaluation shows that DeepResearch Arena presents substantial challenges for current state-of-the-art agents, with clear performance gaps observed across different models.
PDF565September 5, 2025