DeepSearchQA: Преодоление разрыва в полноте для агентов углубленного исследования
DeepSearchQA: Bridging the Comprehensiveness Gap for Deep Research Agents
January 28, 2026
Авторы: Nikita Gupta, Riju Chatterjee, Lukas Haas, Connie Tao, Andrew Wang, Chang Liu, Hidekazu Oiwa, Elena Gribovskaya, Jan Ackermann, John Blitzer, Sasha Goldshtein, Dipanjan Das
cs.AI
Аннотация
Мы представляем DeepSearchQA — эталонный набор из 900 заданий для оценки агентов на сложных многоэтапных информационно-поисковых задачах в 17 различных областях. В отличие от традиционных бенчмарков, ориентированных на поиск единичных ответов или широкоспектральную фактическую точность, DeepSearchQA содержит набор сложных, тщательно разработанных задач, призванных оценить способность агента выполнять комплексные поисковые планы для формирования исчерпывающих списков ответов. Такая конструкция явно тестирует три критически важные, но недостаточно оцениваемые способности: 1) систематический сбор фрагментированной информации из разнородных источников, 2) дедупликацию и разрешение сущностей для обеспечения точности и 3) способность к определению критериев остановки в открытом поисковом пространстве. Каждая задача структурирована как причинно-следственная цепь, где обнаружение информации на одном этапе зависит от успешного завершения предыдущего, что требует долгосрочного планирования и удержания контекста. Все задачи основаны на открытом вебе и имеют объективно проверяемые наборы ответов. Наше комплексное оценивание передовых архитектур агентов выявляет существенные ограничения производительности: даже самые продвинутые модели с трудом достигают баланса между высокой полнотой и точностью. Мы наблюдаем различные типы сбоев — от преждевременной остановки (недостаточный охват) до поведения с перестраховкой, когда агенты формируют чрезмерно широкий сет из низкодостоверных ответов для искусственного повышения полноты. Эти результаты указывают на значительный потенциал для улучшения современных конструкций агентов и позиционируют DeepSearchQA как важный диагностический инструмент для направления будущих исследований в сторону создания более надежных систем, способных к углубленному поиску.
English
We introduce DeepSearchQA, a 900-prompt benchmark for evaluating agents on difficult multi-step information-seeking tasks across 17 different fields. Unlike traditional benchmarks that target single answer retrieval or broad-spectrum factuality, DeepSearchQA features a dataset of challenging, handcrafted tasks designed to evaluate an agent's ability to execute complex search plans to generate exhaustive answer lists. This shift in design explicitly tests three critical, yet under-evaluated capabilities: 1) systematic collation of fragmented information from disparate sources, 2) de-duplication and entity resolution to ensure precision, and 3) the ability to reason about stopping criteria within an open-ended search space. Each task is structured as a causal chain, where discovering information for one step is dependent on the successful completion of the previous one, stressing long-horizon planning and context retention. All tasks are grounded in the open web with objectively verifiable answer sets. Our comprehensive evaluation of state-of-the-art agent architectures reveals significant performance limitations: even the most advanced models struggle to balance high recall with precision. We observe distinct failure modes ranging from premature stopping (under-retrieval) to hedging behaviors, where agents cast an overly wide net of low-confidence answers to artificially boost recall. These findings highlight critical headroom in current agent designs and position DeepSearchQA as an essential diagnostic tool for driving future research toward more robust, deep-research capabilities.