ChatPaper.aiChatPaper

DeepResearch Bench: Un punto de referencia integral para agentes de investigación profunda

DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents

June 13, 2025
Autores: Mingxuan Du, Benfeng Xu, Chiwei Zhu, Xiaorui Wang, Zhendong Mao
cs.AI

Resumen

Los Agentes de Investigación Profunda (Deep Research Agents, DRAs) son una categoría destacada de agentes basados en modelos de lenguaje de gran escala (LLM). Al orquestar de manera autónoma exploraciones web de múltiples pasos, recuperación dirigida y síntesis de alto orden, transforman grandes cantidades de información en línea en informes de calidad analítica y ricos en citas, comprimiendo horas de investigación manual en minutos. Sin embargo, aún falta un punto de referencia integral para evaluar sistemáticamente las capacidades de estos agentes. Para cerrar esta brecha, presentamos DeepResearch Bench, un punto de referencia que consta de 100 tareas de investigación a nivel de doctorado, cada una cuidadosamente diseñada por expertos en 22 campos distintos. Evaluar los DRAs es intrínsecamente complejo y laborioso. Por ello, proponemos dos metodologías novedosas que logran una fuerte alineación con el juicio humano. La primera es un método basado en referencias con criterios adaptativos para evaluar la calidad de los informes de investigación generados. El otro marco se introduce para evaluar las capacidades de recuperación y recopilación de información de los DRAs, midiendo su recuento efectivo de citas y la precisión general de las mismas. Hemos liberado el código de DeepResearch Bench y componentes clave de estos marcos en https://github.com/Ayanami0730/deep_research_bench para acelerar el desarrollo de agentes prácticos basados en LLM.
English
Deep Research Agents are a prominent category of LLM-based agents. By autonomously orchestrating multistep web exploration, targeted retrieval, and higher-order synthesis, they transform vast amounts of online information into analyst-grade, citation-rich reports--compressing hours of manual desk research into minutes. However, a comprehensive benchmark for systematically evaluating the capabilities of these agents remains absent. To bridge this gap, we present DeepResearch Bench, a benchmark consisting of 100 PhD-level research tasks, each meticulously crafted by domain experts across 22 distinct fields. Evaluating DRAs is inherently complex and labor-intensive. We therefore propose two novel methodologies that achieve strong alignment with human judgment. The first is a reference-based method with adaptive criteria to assess the quality of generated research reports. The other framework is introduced to evaluate DRA's information retrieval and collection capabilities by assessing its effective citation count and overall citation accuracy. We have open-sourced DeepResearch Bench and key components of these frameworks at https://github.com/Ayanami0730/deep_research_bench to accelerate the development of practical LLM-based agents.
PDF483June 17, 2025