DeepSearchQA: Cerrando la Brecha de Exhaustividad para Agentes de Investigación Profunda
DeepSearchQA: Bridging the Comprehensiveness Gap for Deep Research Agents
January 28, 2026
Autores: Nikita Gupta, Riju Chatterjee, Lukas Haas, Connie Tao, Andrew Wang, Chang Liu, Hidekazu Oiwa, Elena Gribovskaya, Jan Ackermann, John Blitzer, Sasha Goldshtein, Dipanjan Das
cs.AI
Resumen
Presentamos DeepSearchQA, un benchmark de 900 prompts para evaluar agentes en tareas complejas de búsqueda de información de múltiples pasos a través de 17 campos diferentes. A diferencia de los benchmarks tradicionales que se centran en la recuperación de respuestas únicas o en la factualidad de amplio espectro, DeepSearchQA presenta un conjunto de datos de tareas desafiantes y elaboradas manualmente, diseñadas para evaluar la capacidad de un agente para ejecutar planes de búsqueda complejos y generar listas de respuestas exhaustivas. Este cambio de diseño evalúa explícitamente tres capacidades críticas, pero insuficientemente evaluadas: 1) la recopilación sistemática de información fragmentada procedente de fuentes dispares, 2) la desduplicación y resolución de entidades para garantizar la precisión, y 3) la capacidad de razonar sobre los criterios de parada dentro de un espacio de búsqueda abierto. Cada tarea está estructurada como una cadena causal, donde descubrir la información para un paso depende de la finalización exitosa del anterior, poniendo a prueba la planificación a largo plazo y la retención de contexto. Todas las tareas están basadas en la web abierta con conjuntos de respuestas objetivamente verificables. Nuestra evaluación exhaustiva de las arquitecturas de agentes más avanzadas revela limitaciones significativas de rendimiento: incluso los modelos más avanzados tienen dificultades para equilibrar una alta exhaustividad con la precisión. Observamos modos de fallo distintos, que van desde la parada prematura (sub-recuperación) hasta comportamientos de cobertura, donde los agentes lanzan una red excesivamente amplia de respuestas de baja confianza para aumentar artificialmente la exhaustividad. Estos hallazgos resaltan un margen de mejora crítico en los diseños actuales de agentes y posicionan a DeepSearchQA como una herramienta de diagnóstico esencial para impulsar la investigación futura hacia capacidades de investigación profunda más robustas.
English
We introduce DeepSearchQA, a 900-prompt benchmark for evaluating agents on difficult multi-step information-seeking tasks across 17 different fields. Unlike traditional benchmarks that target single answer retrieval or broad-spectrum factuality, DeepSearchQA features a dataset of challenging, handcrafted tasks designed to evaluate an agent's ability to execute complex search plans to generate exhaustive answer lists. This shift in design explicitly tests three critical, yet under-evaluated capabilities: 1) systematic collation of fragmented information from disparate sources, 2) de-duplication and entity resolution to ensure precision, and 3) the ability to reason about stopping criteria within an open-ended search space. Each task is structured as a causal chain, where discovering information for one step is dependent on the successful completion of the previous one, stressing long-horizon planning and context retention. All tasks are grounded in the open web with objectively verifiable answer sets. Our comprehensive evaluation of state-of-the-art agent architectures reveals significant performance limitations: even the most advanced models struggle to balance high recall with precision. We observe distinct failure modes ranging from premature stopping (under-retrieval) to hedging behaviors, where agents cast an overly wide net of low-confidence answers to artificially boost recall. These findings highlight critical headroom in current agent designs and position DeepSearchQA as an essential diagnostic tool for driving future research toward more robust, deep-research capabilities.