DeepSearchQA : Combler le déficit d'exhaustivité des agents de recherche approfondie
DeepSearchQA: Bridging the Comprehensiveness Gap for Deep Research Agents
January 28, 2026
papers.authors: Nikita Gupta, Riju Chatterjee, Lukas Haas, Connie Tao, Andrew Wang, Chang Liu, Hidekazu Oiwa, Elena Gribovskaya, Jan Ackermann, John Blitzer, Sasha Goldshtein, Dipanjan Das
cs.AI
papers.abstract
Nous présentons DeepSearchQA, un benchmark de 900 requêtes conçu pour évaluer les agents sur des tâches complexes de recherche d'informations en plusieurs étapes couvrant 17 domaines différents. Contrairement aux benchmarks traditionnels qui ciblent la récupération de réponses uniques ou une factualité à large spectre, DeepSearchQA se caractérise par un ensemble de tâches difficiles, élaborées manuellement, conçues pour évaluer la capacité d'un agent à exécuter des plans de recherche complexes afin de générer des listes de réponses exhaustives. Ce changement de conception teste explicitement trois capacités critiques mais sous-évaluées : 1) la compilation systématique d'informations fragmentées provenant de sources disparates, 2) la déduplication et la résolution d'entités pour garantir la précision, et 3) la capacité à raisonner sur les critères d'arrêt dans un espace de recherche ouvert. Chaque tâche est structurée comme une chaîne causale, où la découverte d'informations pour une étape dépend de la réussite de l'étape précédente, mettant l'accent sur la planification à long terme et la rétention du contexte. Toutes les tâches sont ancrées dans le web ouvert avec des ensembles de réponses objectivement vérifiables. Notre évaluation complète des architectures d'agents les plus avancées révèle des limitations significatives de performance : même les modèles les plus performants peinent à équilibrer un rappel élevé avec la précision. Nous observons des modes d'échec distincts, allant de l'arrêt prématuré (sous-récupération) à des comportements de couverture, où les agents lancent un filet excessivement large de réponses à faible confiance pour augmenter artificiellement le rappel. Ces résultats mettent en lumière une marge de progression critique dans les conceptions actuelles d'agents et positionnent DeepSearchQA comme un outil de diagnostic essentiel pour orienter les recherches futures vers des capacités de recherche approfondie plus robustes.
English
We introduce DeepSearchQA, a 900-prompt benchmark for evaluating agents on difficult multi-step information-seeking tasks across 17 different fields. Unlike traditional benchmarks that target single answer retrieval or broad-spectrum factuality, DeepSearchQA features a dataset of challenging, handcrafted tasks designed to evaluate an agent's ability to execute complex search plans to generate exhaustive answer lists. This shift in design explicitly tests three critical, yet under-evaluated capabilities: 1) systematic collation of fragmented information from disparate sources, 2) de-duplication and entity resolution to ensure precision, and 3) the ability to reason about stopping criteria within an open-ended search space. Each task is structured as a causal chain, where discovering information for one step is dependent on the successful completion of the previous one, stressing long-horizon planning and context retention. All tasks are grounded in the open web with objectively verifiable answer sets. Our comprehensive evaluation of state-of-the-art agent architectures reveals significant performance limitations: even the most advanced models struggle to balance high recall with precision. We observe distinct failure modes ranging from premature stopping (under-retrieval) to hedging behaviors, where agents cast an overly wide net of low-confidence answers to artificially boost recall. These findings highlight critical headroom in current agent designs and position DeepSearchQA as an essential diagnostic tool for driving future research toward more robust, deep-research capabilities.