ChatPaper.aiChatPaper

DeepResearchEval: Un Marco Automatizado para la Construcción de Tareas de Investigación Profunda y la Evaluación Agéntica

DeepResearchEval: An Automated Framework for Deep Research Task Construction and Agentic Evaluation

January 14, 2026
Autores: Yibo Wang, Lei Wang, Yue Deng, Keming Wu, Yao Xiao, Huanjin Yao, Liwei Kang, Hai Ye, Yongcheng Jing, Lidong Bing
cs.AI

Resumen

Los sistemas de investigación profunda se utilizan ampliamente para la investigación web multi-etapa, el análisis y la síntesis de fuentes cruzadas, sin embargo, su evaluación sigue siendo un desafío. Los puntos de referencia existentes a menudo requieren una construcción de tareas intensiva en anotaciones, dependen de dimensiones de evaluación estáticas o no logran verificar hechos de manera confiable cuando faltan citas. Para cerrar estas brechas, presentamos DeepResearchEval, un marco automatizado para la construcción de tareas de investigación profunda y la evaluación agéntica. Para la construcción de tareas, proponemos un pipeline basado en personajes que genera tareas de investigación realistas y complejas ancladas en diversos perfiles de usuario, aplicando un filtro de dos etapas, Calificación de la Tarea y Necesidad de Búsqueda, para retener solo las tareas que requieren integración de evidencia multi-fuente y recuperación externa. Para la evaluación, proponemos un pipeline agéntico con dos componentes: una Evaluación de Calidad Punto a Punto Adaptativa que deriva dinámicamente dimensiones, criterios y pesos de evaluación específicos para cada tarea, condicionados a cada tarea generada; y una Verificación Activa de Hechos que extrae y verifica de forma autónoma las afirmaciones del informe mediante búsqueda web, incluso cuando faltan citas.
English
Deep research systems are widely used for multi-step web research, analysis, and cross-source synthesis, yet their evaluation remains challenging. Existing benchmarks often require annotation-intensive task construction, rely on static evaluation dimensions, or fail to reliably verify facts when citations are missing. To bridge these gaps, we introduce DeepResearchEval, an automated framework for deep research task construction and agentic evaluation. For task construction, we propose a persona-driven pipeline generating realistic, complex research tasks anchored in diverse user profiles, applying a two-stage filter Task Qualification and Search Necessity to retain only tasks requiring multi-source evidence integration and external retrieval. For evaluation, we propose an agentic pipeline with two components: an Adaptive Point-wise Quality Evaluation that dynamically derives task-specific evaluation dimensions, criteria, and weights conditioned on each generated task, and an Active Fact-Checking that autonomously extracts and verifies report statements via web search, even when citations are missing.
PDF901January 16, 2026