DeepSearchQA: Colmare il Divario di Completezza per gli Agenti di Ricerca Approfondita

Abstract

Presentiamo DeepSearchQA, un benchmark di 900 prompt per valutare gli agenti su complesse attività multi-step di ricerca di informazioni in 17 diversi ambiti. A differenza dei benchmark tradizionali che mirano al recupero di singole risposte o a un'ampia factualità, DeepSearchQA propone un dataset di attività complesse e studiate appositamente per valutare la capacità di un agente di eseguire piani di ricerca articolati per generare elenchi di risposte esaustivi. Questo cambio di progettazione testa esplicitamente tre capacità critiche, ma poco valutate: 1) la raccolta sistematica di informazioni frammentate da fonti disparate, 2) la deduplicazione e la risoluzione delle entità per garantire la precisione, e 3) la capacità di ragionare sui criteri di arresto all'interno di uno spazio di ricerca aperto. Ogni attività è strutturata come una catena causale, in cui la scoperta di informazioni per un passaggio dipende dal completamento riuscito del precedente, mettendo alla prova la pianificazione a lungo termine e la ritenzione del contesto. Tutte le attività sono ancorate al web aperto con insiemi di risposte oggettivamente verificabili. La nostra valutazione completa delle architetture di agenti all'avanguardia rivela significative limitazioni prestazionali: anche i modelli più avanzati faticano a bilanciare un alto richiamo con la precisione. Osserviamo distinti modi di fallimento, che vanno dall'arresto prematuro (under-retrieval) a comportamenti di copertura, in cui gli agenti gettano una rete troppo ampia di risposte a bassa confidenza per aumentare artificialmente il richiamo. Questi risultati evidenziano un margine di miglioramento critico nei progetti attuali degli agenti e posizionano DeepSearchQA come uno strumento diagnostico essenziale per orientare la ricerca futura verso capacità di deep-research più robuste.

English

We introduce DeepSearchQA, a 900-prompt benchmark for evaluating agents on difficult multi-step information-seeking tasks across 17 different fields. Unlike traditional benchmarks that target single answer retrieval or broad-spectrum factuality, DeepSearchQA features a dataset of challenging, handcrafted tasks designed to evaluate an agent's ability to execute complex search plans to generate exhaustive answer lists. This shift in design explicitly tests three critical, yet under-evaluated capabilities: 1) systematic collation of fragmented information from disparate sources, 2) de-duplication and entity resolution to ensure precision, and 3) the ability to reason about stopping criteria within an open-ended search space. Each task is structured as a causal chain, where discovering information for one step is dependent on the successful completion of the previous one, stressing long-horizon planning and context retention. All tasks are grounded in the open web with objectively verifiable answer sets. Our comprehensive evaluation of state-of-the-art agent architectures reveals significant performance limitations: even the most advanced models struggle to balance high recall with precision. We observe distinct failure modes ranging from premature stopping (under-retrieval) to hedging behaviors, where agents cast an overly wide net of low-confidence answers to artificially boost recall. These findings highlight critical headroom in current agent designs and position DeepSearchQA as an essential diagnostic tool for driving future research toward more robust, deep-research capabilities.

DeepSearchQA: Colmare il Divario di Completezza per gli Agenti di Ricerca Approfondita

DeepSearchQA: Bridging the Comprehensiveness Gap for Deep Research Agents

Abstract

Support