ChatPaper.aiChatPaper

DeepSearchQA: 심층 연구 에이전트의 포괄성 격차 해소

DeepSearchQA: Bridging the Comprehensiveness Gap for Deep Research Agents

January 28, 2026
저자: Nikita Gupta, Riju Chatterjee, Lukas Haas, Connie Tao, Andrew Wang, Chang Liu, Hidekazu Oiwa, Elena Gribovskaya, Jan Ackermann, John Blitzer, Sasha Goldshtein, Dipanjan Das
cs.AI

초록

DeepSearchQA를 소개합니다. 이는 17개 분야에 걸쳐 복잡한 다단계 정보 탐색 작업을 수행하는 에이전트를 평가하기 위한 900개 프롬프트 벤치마크입니다. 단일 답변 검색이나 광범위 사실성 평가를 목표로 하는 기존 벤치마크와 달리, DeepSearchQA는 포괄적인 답변 목록을 생성하기 위해 복잡한 검색 계획을 실행하는 에이전트의 능력을 평가하도록 설계된 난이도 높은 수작업 작업 데이터셋을 특징으로 합니다. 이러한 설계 변화는 다음 세 가지 중요하지만 제대로 평가되지 않은 능력을 명시적으로 테스트합니다: 1) 다양한 출처의 분할된 정보를 체계적으로 수집하는 능력, 2) 정확성을 보장하기 위한 중복 제거 및 개체 결합, 3) 개방형 검색 공간 내에서 중단 기준에 대해 추론하는 능력. 각 작업은 인과 관계 체인으로 구조화되어 있어, 한 단계의 정보 발견이 이전 단계의 성공적 완료에 의존하여 장기 계획 수립과 맥락 유지 능력을 강조합니다. 모든 작업은 객관적으로 검증 가능한 답변 집합을 바탕으로 오픈 웹에 기반을 두고 있습니다. 최첨단 에이전트 아키텍처에 대한 포괄적 평가 결과, 상당한 성능 한계가 드러났습니다: 가장 발전된 모델조차 높은 재현율과 정밀도 사이의 균형을 맞추는 데 어려움을 겪었습니다. 우리는 조기 중단(저조한 검색)부터 회피 행동(재현율을 인위적으로 높이기 위해 신뢰도 낮은 답변을 지나치게 광범위하게 제시하는 현상)에 이르는 뚜렷한 실패 모드를 관찰했습니다. 이러한 결과는 현재 에이전트 설계의 중요한 개선 여지를 강조하며, DeepSearchQA를 보다 강력한 심층 연구 능력을 위한 미래 연구를 주도하는 필수 진단 도구로 위치시킵니다.
English
We introduce DeepSearchQA, a 900-prompt benchmark for evaluating agents on difficult multi-step information-seeking tasks across 17 different fields. Unlike traditional benchmarks that target single answer retrieval or broad-spectrum factuality, DeepSearchQA features a dataset of challenging, handcrafted tasks designed to evaluate an agent's ability to execute complex search plans to generate exhaustive answer lists. This shift in design explicitly tests three critical, yet under-evaluated capabilities: 1) systematic collation of fragmented information from disparate sources, 2) de-duplication and entity resolution to ensure precision, and 3) the ability to reason about stopping criteria within an open-ended search space. Each task is structured as a causal chain, where discovering information for one step is dependent on the successful completion of the previous one, stressing long-horizon planning and context retention. All tasks are grounded in the open web with objectively verifiable answer sets. Our comprehensive evaluation of state-of-the-art agent architectures reveals significant performance limitations: even the most advanced models struggle to balance high recall with precision. We observe distinct failure modes ranging from premature stopping (under-retrieval) to hedging behaviors, where agents cast an overly wide net of low-confidence answers to artificially boost recall. These findings highlight critical headroom in current agent designs and position DeepSearchQA as an essential diagnostic tool for driving future research toward more robust, deep-research capabilities.
PDF63January 31, 2026