DeepResearch Arena: La Primera Evaluación de las Capacidades de Investigación de los LLMs mediante Tareas Basadas en Seminarios
DeepResearch Arena: The First Exam of LLMs' Research Abilities via Seminar-Grounded Tasks
September 1, 2025
Autores: Haiyuan Wan, Chen Yang, Junchi Yu, Meiqi Tu, Jiaxuan Lu, Di Yu, Jianbao Cao, Ben Gao, Jiaqing Xie, Aoran Wang, Wenlong Zhang, Philip Torr, Dongzhan Zhou
cs.AI
Resumen
Los agentes de investigación profunda han atraído una atención creciente por su potencial para orquestar flujos de trabajo de investigación de múltiples etapas, que abarcan la síntesis de literatura, el diseño metodológico y la verificación empírica. A pesar de estos avances, evaluar fielmente su capacidad de investigación es bastante desafiante debido a la dificultad de recopilar preguntas de investigación de vanguardia que realmente capturen la atención y la curiosidad intelectual de los investigadores. Para abordar esta brecha, presentamos DeepResearch Arena, un punto de referencia basado en seminarios académicos que capturan un discurso y una interacción experta rica, reflejando mejor los entornos de investigación del mundo real y reduciendo el riesgo de fugas de datos. Para construir automáticamente DeepResearch Arena, proponemos un sistema de Generación de Tareas Jerárquicas Multi-Agente (MAHTG, por sus siglas en inglés) que extrae inspiraciones dignas de investigación de las transcripciones de seminarios. El sistema MAHTG traduce además estas inspiraciones en tareas de investigación de alta calidad, asegurando la trazabilidad en la formulación de las tareas de investigación mientras filtra el ruido. Con el sistema MAHTG, hemos curado DeepResearch Arena con más de 10,000 tareas de investigación de alta calidad provenientes de más de 200 seminarios académicos, abarcando 12 disciplinas, como literatura, historia y ciencias. Nuestra evaluación extensiva muestra que DeepResearch Arena presenta desafíos sustanciales para los agentes más avanzados del estado del arte, observándose brechas claras de rendimiento entre diferentes modelos.
English
Deep research agents have attracted growing attention for their potential to
orchestrate multi-stage research workflows, spanning literature synthesis,
methodological design, and empirical verification. Despite these strides,
evaluating their research capability faithfully is rather challenging due to
the difficulty of collecting frontier research questions that genuinely capture
researchers' attention and intellectual curiosity. To address this gap, we
introduce DeepResearch Arena, a benchmark grounded in academic seminars that
capture rich expert discourse and interaction, better reflecting real-world
research environments and reducing the risk of data leakage. To automatically
construct DeepResearch Arena, we propose a Multi-Agent Hierarchical Task
Generation (MAHTG) system that extracts research-worthy inspirations from
seminar transcripts. The MAHTG system further translates research-worthy
inspirations into high-quality research tasks, ensuring the traceability of
research task formulation while filtering noise. With the MAHTG system, we
curate DeepResearch Arena with over 10,000 high-quality research tasks from
over 200 academic seminars, spanning 12 disciplines, such as literature,
history, and science. Our extensive evaluation shows that DeepResearch Arena
presents substantial challenges for current state-of-the-art agents, with clear
performance gaps observed across different models.