Entmystifizierung der Tiefensuche: Eine ganzheitliche Bewertung mit mehrstufigen Fragen ohne Hinweise und faktorisierten Metriken
Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics
October 1, 2025
papers.authors: Maojia Song, Renhang Liu, Xinyu Wang, Yong Jiang, Pengjun Xie, Fei Huang, Soujanya Poria, Jingren Zhou
cs.AI
papers.abstract
RAG-Systeme (Retrieval-Augmented Generation) und Web-Agenten werden zunehmend an Multi-Hop-Tiefensuchaufgaben evaluiert, doch die derzeitige Praxis leidet unter zwei wesentlichen Einschränkungen. Erstens geben die meisten Benchmarks den Lösungsweg in der Fragestellung preis, wodurch Modelle oberflächliche Hinweise verfolgen können, anstatt eigenständig Schlussfolgerungsketten zu entdecken. Zweitens beschränkt sich die Evaluation typischerweise auf eine einzige Erfolgsquote, die unterschiedliche Verhaltensweisen auf einen einzigen Wert reduziert und verschleiert, ob Fehler auf unzureichende Suche, schlechte Wissensnutzung oder unangemessene Ablehnung zurückzuführen sind. Um diese Probleme zu adressieren, stellen wir WebDetective vor, einen Benchmark für hinweis-freie Multi-Hop-Fragen, gepaart mit einer kontrollierten Wikipedia-Sandbox, die die vollständige Nachvollziehbarkeit der Modellaktionen gewährleistet, sowie ein ganzheitliches Evaluationsframework, das Suchqualität, Wissensnutzung und Ablehnungsverhalten separat bewertet. Unsere Evaluation von 25 state-of-the-art Modellen zeigt systematische Schwächen in allen Architekturen: Modelle haben Schwierigkeiten bei der Wissensnutzung, obwohl ausreichend Beweise vorliegen, und zeigen nahezu keine angemessene Ablehnung, wenn Beweise fehlen. Diese Muster offenbaren eine grundlegende Lücke: Die heutigen Systeme sind zwar gut darin, vorgegebene Lösungswege auszuführen, scheitern jedoch, wenn sie diese selbst entdecken müssen. Wir entwickeln einen agentenbasierten Workflow, EvidenceLoop, der gezielt die Herausforderungen adressiert, die unser Benchmark identifiziert, und Überprüfungsschleifen sowie systematische Beweisverfolgung integriert, die sowohl die Such- als auch die Synthesefähigkeiten verbessern. Diese Baseline zeigt, dass das diagnostische Framework von WebDetective konkrete architektonische Verbesserungen anleiten kann, und etabliert unseren Benchmark als ein entscheidendes Werkzeug für die Entwicklung wirklich autonomer Denksysteme anstelle von Mustern-folgenden Agenten.
English
RAG (Retrieval-Augmented Generation) systems and web agents are increasingly
evaluated on multi-hop deep search tasks, yet current practice suffers from two
major limitations. First, most benchmarks leak the reasoning path in the
question text, allowing models to follow surface cues rather than discover
reasoning chains autonomously. Second, evaluation is typically reduced to a
single pass rate, which collapses diverse behaviours into one score and
obscures whether failures stem from inadequate search, poor knowledge use, or
inappropriate refusal. To address these issues, we present WebDetective, a
benchmark of hint-free multi-hop questions paired with a controlled Wikipedia
sandbox that ensures full traceability of model actions, and a holistic
evaluation framework that separates search sufficiency, knowledge utilisation,
and refusal behaviour. Our evaluation of 25 state-of-the-art models reveals
systematic weaknesses across all architectures: models struggle with knowledge
utilisation despite having sufficient evidence and demonstrate near-absent
appropriate refusal when evidence is lacking. These patterns expose a
fundamental gap: today's systems excel at executing given reasoning paths but
fail when required to discover them. We develop an agentic workflow,
EvidenceLoop, that explicitly targets the challenges our benchmark identifies,
incorporating verification loops and systematic evidence tracking that improve
both search and synthesis capabilities. This baseline demonstrates that
WebDetective's diagnostic framework can guide concrete architectural
improvements, establishing our benchmark as a critical tool for developing
genuinely autonomous reasoning systems rather than pattern-following agents.