DeepSearchQA: 深層研究エージェントにおける包括性の隔たりを埋める
DeepSearchQA: Bridging the Comprehensiveness Gap for Deep Research Agents
January 28, 2026
著者: Nikita Gupta, Riju Chatterjee, Lukas Haas, Connie Tao, Andrew Wang, Chang Liu, Hidekazu Oiwa, Elena Gribovskaya, Jan Ackermann, John Blitzer, Sasha Goldshtein, Dipanjan Das
cs.AI
要旨
DeepSearchQAを紹介する。これは17の異なる分野にわたる困難な多段階情報探索タスクにおいて、エージェントを評価するための900のプロンプトからなるベンチマークである。単一の回答検索や広範な事実性を対象とする従来のベンチマークとは異なり、DeepSearchQAは、網羅的な回答リストを生成するために複雑な検索計画を実行するエージェントの能力を評価するように設計された、挑戦的な手作りのタスクのデータセットを特徴とする。この設計の転換により、以下の3つの重要でありながら十分に評価されていない能力が明示的にテストされる:1) 異種の情報源から断片化された情報を体系的に整理する能力、2) 精度を確保するための重複排除とエンティティ解決、3) 開かれた検索空間内で停止基準について推論する能力。各タスクは因果連鎖として構造化されており、あるステップの情報発見は前のステップの成功完了に依存するため、長期的な計画立案と文脈の保持が強調される。全てのタスクはオープンウェブに基づき、客観的に検証可能な回答セットを持つ。最先端のエージェントアーキテクチャに対する我々の包括的評価は、重大な性能限界を明らかにしている:最も先進的なモデルでさえ、高い再現率と精度のバランスを取るのに苦労する。早期停止(過少検索)から、再現率を人為的に高めるために信頼度の低い回答を過度に広く網羅するヘッジング行動に至るまで、明確な失敗モードが観察される。これらの知見は、現在のエージェント設計における重要な改善余地を浮き彫りにし、DeepSearchQAを、より堅牢な深層調査能力に向けた将来の研究を推進する必須の診断ツールとして位置づける。
English
We introduce DeepSearchQA, a 900-prompt benchmark for evaluating agents on difficult multi-step information-seeking tasks across 17 different fields. Unlike traditional benchmarks that target single answer retrieval or broad-spectrum factuality, DeepSearchQA features a dataset of challenging, handcrafted tasks designed to evaluate an agent's ability to execute complex search plans to generate exhaustive answer lists. This shift in design explicitly tests three critical, yet under-evaluated capabilities: 1) systematic collation of fragmented information from disparate sources, 2) de-duplication and entity resolution to ensure precision, and 3) the ability to reason about stopping criteria within an open-ended search space. Each task is structured as a causal chain, where discovering information for one step is dependent on the successful completion of the previous one, stressing long-horizon planning and context retention. All tasks are grounded in the open web with objectively verifiable answer sets. Our comprehensive evaluation of state-of-the-art agent architectures reveals significant performance limitations: even the most advanced models struggle to balance high recall with precision. We observe distinct failure modes ranging from premature stopping (under-retrieval) to hedging behaviors, where agents cast an overly wide net of low-confidence answers to artificially boost recall. These findings highlight critical headroom in current agent designs and position DeepSearchQA as an essential diagnostic tool for driving future research toward more robust, deep-research capabilities.