DeepSearchQA: Überbrückung der Vollständigkeitslücke für tiefgehende Forschungsagenten
DeepSearchQA: Bridging the Comprehensiveness Gap for Deep Research Agents
January 28, 2026
papers.authors: Nikita Gupta, Riju Chatterjee, Lukas Haas, Connie Tao, Andrew Wang, Chang Liu, Hidekazu Oiwa, Elena Gribovskaya, Jan Ackermann, John Blitzer, Sasha Goldshtein, Dipanjan Das
cs.AI
papers.abstract
Wir stellen DeepSearchQA vor, einen Benchmark mit 900 Prompt-Aufgaben zur Bewertung von Agenten bei schwierigen, mehrstufigen informationsbasierten Aufgaben aus 17 verschiedenen Fachgebieten. Im Gegensatz zu traditionellen Benchmarks, die auf die Ermittlung einzelner Antworten oder breit angelegte Faktizität abzielen, zeichnet sich DeepSearchQA durch einen Datensatz anspruchsvoller, handgefertigter Aufgaben aus, die entwickelt wurden, um die Fähigkeit eines Agenten zu bewerten, komplexe Suchpläne zur Erstellung erschöpfender Antwortlisten auszuführen. Dieser Wechsel im Design testet explizit drei kritische, aber bisher unzureichend bewertete Fähigkeiten: 1) die systematische Zusammenstellung fragmentierter Informationen aus unterschiedlichen Quellen, 2) Deduplizierung und Entitätsauflösung zur Sicherstellung der Präzision und 3) die Fähigkeit, Stoppkriterien in einem offenen Suchraum abzuleiten. Jede Aufgabe ist als kausale Kette strukturiert, bei der die Informationsgewinnung für einen Schritt vom erfolgreichen Abschluss des vorherigen abhängt, was langfristige Planung und Kontextbewahrung erfordert. Alle Aufgaben basieren auf dem offenen Web mit objektiv überprüfbaren Antwortmengen. Unsere umfassende Evaluierung modernster Agenten-Architekturen zeigt erhebliche Leistungsdefizite auf: Selbst die fortschrittlichsten Modelle haben Schwierigkeiten, eine hohe Trefferquote mit Präzision in Einklang zu bringen. Wir beobachten deutliche Fehlermuster, die von vorzeitigem Abbruch (Untererfassung) bis zu Absicherungsverhalten reichen, bei denen Agenten ein zu weit gespanntes Netz von Antworten mit geringer Konfidenz werfen, um die Trefferquote künstlich zu erhöhen. Diese Ergebnisse verdeutlichen erheblichen Verbesserungsbedarf in aktuellen Agenten-Designs und positionieren DeepSearchQA als ein essenzielles Diagnosewerkzeug, um zukünftige Forschung hin zu robusteren Deep-Research-Fähigkeiten zu lenken.
English
We introduce DeepSearchQA, a 900-prompt benchmark for evaluating agents on difficult multi-step information-seeking tasks across 17 different fields. Unlike traditional benchmarks that target single answer retrieval or broad-spectrum factuality, DeepSearchQA features a dataset of challenging, handcrafted tasks designed to evaluate an agent's ability to execute complex search plans to generate exhaustive answer lists. This shift in design explicitly tests three critical, yet under-evaluated capabilities: 1) systematic collation of fragmented information from disparate sources, 2) de-duplication and entity resolution to ensure precision, and 3) the ability to reason about stopping criteria within an open-ended search space. Each task is structured as a causal chain, where discovering information for one step is dependent on the successful completion of the previous one, stressing long-horizon planning and context retention. All tasks are grounded in the open web with objectively verifiable answer sets. Our comprehensive evaluation of state-of-the-art agent architectures reveals significant performance limitations: even the most advanced models struggle to balance high recall with precision. We observe distinct failure modes ranging from premature stopping (under-retrieval) to hedging behaviors, where agents cast an overly wide net of low-confidence answers to artificially boost recall. These findings highlight critical headroom in current agent designs and position DeepSearchQA as an essential diagnostic tool for driving future research toward more robust, deep-research capabilities.