DeepResearch Bench: Un punto de referencia integral para agentes de investigación profunda
DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents
June 13, 2025
Autores: Mingxuan Du, Benfeng Xu, Chiwei Zhu, Xiaorui Wang, Zhendong Mao
cs.AI
Resumen
Los Agentes de Investigación Profunda (Deep Research Agents, DRAs) son una categoría destacada de agentes basados en modelos de lenguaje de gran escala (LLM). Al orquestar de manera autónoma exploraciones web de múltiples pasos, recuperación dirigida y síntesis de alto orden, transforman grandes cantidades de información en línea en informes de calidad analítica y ricos en citas, comprimiendo horas de investigación manual en minutos. Sin embargo, aún falta un punto de referencia integral para evaluar sistemáticamente las capacidades de estos agentes. Para cerrar esta brecha, presentamos DeepResearch Bench, un punto de referencia que consta de 100 tareas de investigación a nivel de doctorado, cada una cuidadosamente diseñada por expertos en 22 campos distintos.
Evaluar los DRAs es intrínsecamente complejo y laborioso. Por ello, proponemos dos metodologías novedosas que logran una fuerte alineación con el juicio humano. La primera es un método basado en referencias con criterios adaptativos para evaluar la calidad de los informes de investigación generados. El otro marco se introduce para evaluar las capacidades de recuperación y recopilación de información de los DRAs, midiendo su recuento efectivo de citas y la precisión general de las mismas. Hemos liberado el código de DeepResearch Bench y componentes clave de estos marcos en https://github.com/Ayanami0730/deep_research_bench para acelerar el desarrollo de agentes prácticos basados en LLM.
English
Deep Research Agents are a prominent category of LLM-based agents. By
autonomously orchestrating multistep web exploration, targeted retrieval, and
higher-order synthesis, they transform vast amounts of online information into
analyst-grade, citation-rich reports--compressing hours of manual desk research
into minutes. However, a comprehensive benchmark for systematically evaluating
the capabilities of these agents remains absent. To bridge this gap, we present
DeepResearch Bench, a benchmark consisting of 100 PhD-level research tasks,
each meticulously crafted by domain experts across 22 distinct fields.
Evaluating DRAs is inherently complex and labor-intensive. We therefore propose
two novel methodologies that achieve strong alignment with human judgment. The
first is a reference-based method with adaptive criteria to assess the quality
of generated research reports. The other framework is introduced to evaluate
DRA's information retrieval and collection capabilities by assessing its
effective citation count and overall citation accuracy. We have open-sourced
DeepResearch Bench and key components of these frameworks at
https://github.com/Ayanami0730/deep_research_bench to accelerate the
development of practical LLM-based agents.