DeepSearchQA: Het overbruggen van de volledigheidskloof voor diepgaande onderzoeksagentschappen

Samenvatting

Wij introduceren DeepSearchQA, een benchmark met 900 prompts voor het evalueren van agents bij moeilijke, meerstaps informatiezoektaken in 17 verschillende vakgebieden. In tegenstelling tot traditionele benchmarks die gericht zijn op het ophalen van een enkel antwoord of op brede feitelijke correctheid, kenmerkt DeepSearchQA zich door een dataset van uitdagende, handmatig samengestelde taken die zijn ontworpen om het vermogen van een agent te evalueren om complexe zoekplannen uit te voeren voor het genereren van uitputtende antwoordlijsten. Deze ontwerpverschuiving test expliciet drie kritieke, maar ondergeëvalueerde capaciteiten: 1) het systematisch samenstellen van gefragmenteerde informatie uit uiteenlopende bronnen, 2) deduplicatie en entity-resolutie om precisie te waarborgen, en 3) het vermogen om te redeneren over stopcriteria binnen een open zoekruimte. Elke taak is gestructureerd als een causale keten, waarbij het ontdekken van informatie voor de ene stap afhankelijk is van de succesvolle voltooiing van de vorige, wat een langetermijnplanning en contextretentie benadrukt. Alle taken zijn verankerd in het open web met objectief verifieerbare antwoordensets. Onze uitgebreide evaluatie van state-of-the-art agent-architecturen onthult aanzienlijke prestatiebeperkingen: zelfs de meest geavanceerde modellen hebben moeite om een hoge recall te combineren met precisie. We observeren duidelijke faalmodi, variërend van voortijdig stoppen (onder-retrieval) tot 'hedging'-gedrag, waarbij agents een te ruim net uitwerpen van antwoorden met een laag vertrouwen om de recall kunstmatig te verhogen. Deze bevindingen belichten een kritieke verbeterruimte in huidige agentontwerpen en positioneren DeepSearchQA als een essentieel diagnostisch instrument om toekomstig onderzoek te sturen naar robuustere, diepgaande onderzoekscapaciteiten.

English

We introduce DeepSearchQA, a 900-prompt benchmark for evaluating agents on difficult multi-step information-seeking tasks across 17 different fields. Unlike traditional benchmarks that target single answer retrieval or broad-spectrum factuality, DeepSearchQA features a dataset of challenging, handcrafted tasks designed to evaluate an agent's ability to execute complex search plans to generate exhaustive answer lists. This shift in design explicitly tests three critical, yet under-evaluated capabilities: 1) systematic collation of fragmented information from disparate sources, 2) de-duplication and entity resolution to ensure precision, and 3) the ability to reason about stopping criteria within an open-ended search space. Each task is structured as a causal chain, where discovering information for one step is dependent on the successful completion of the previous one, stressing long-horizon planning and context retention. All tasks are grounded in the open web with objectively verifiable answer sets. Our comprehensive evaluation of state-of-the-art agent architectures reveals significant performance limitations: even the most advanced models struggle to balance high recall with precision. We observe distinct failure modes ranging from premature stopping (under-retrieval) to hedging behaviors, where agents cast an overly wide net of low-confidence answers to artificially boost recall. These findings highlight critical headroom in current agent designs and position DeepSearchQA as an essential diagnostic tool for driving future research toward more robust, deep-research capabilities.

DeepSearchQA: Het overbruggen van de volledigheidskloof voor diepgaande onderzoeksagentschappen

DeepSearchQA: Bridging the Comprehensiveness Gap for Deep Research Agents

Samenvatting

Support