Demystificatie van diepe zoekopdrachten: een holistische evaluatie met hintvrije meerstapsvragen en gefactoriseerde metrieken
Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics
October 1, 2025
Auteurs: Maojia Song, Renhang Liu, Xinyu Wang, Yong Jiang, Pengjun Xie, Fei Huang, Soujanya Poria, Jingren Zhou
cs.AI
Samenvatting
RAG (Retrieval-Augmented Generation) systemen en webagents worden steeds vaker geëvalueerd op multi-hop diepe zoekopdrachten, maar de huidige praktijk kampt met twee belangrijke beperkingen. Ten eerste lekken de meeste benchmarks het redeneerpad in de vraagtekst, waardoor modellen oppervlakkige aanwijzingen kunnen volgen in plaats van redeneerketens autonoom te ontdekken. Ten tweede wordt de evaluatie meestal gereduceerd tot een enkele slagingspercentage, wat diverse gedragingen samenvat tot één score en verhult of fouten voortkomen uit onvoldoende zoeken, slecht gebruik van kennis of ongepaste weigering. Om deze problemen aan te pakken, presenteren we WebDetective, een benchmark van hint-vrije multi-hop vragen gepaard met een gecontroleerde Wikipedia-sandbox die volledige traceerbaarheid van modelacties garandeert, en een holistisch evaluatiekader dat zoekvoldoende, kennisbenutting en weigeringsgedrag scheidt. Onze evaluatie van 25 state-of-the-art modellen onthult systematische zwaktes in alle architecturen: modellen worstelen met kennisbenutting ondanks voldoende bewijs en tonen bijna geen gepaste weigering wanneer bewijs ontbreekt. Deze patronen blootleggen een fundamentele kloof: de systemen van vandaag blinken uit in het uitvoeren van gegeven redeneerpaden, maar falen wanneer ze deze zelf moeten ontdekken. We ontwikkelen een agentisch workflow, EvidenceLoop, dat expliciet de uitdagingen aanpakt die onze benchmark identificeert, met verificatielussen en systematische bewijstracking die zowel zoek- als synthesemogelijkheden verbeteren. Deze baseline toont aan dat het diagnostische kader van WebDetective concrete architectuurverbeteringen kan sturen, waardoor onze benchmark een cruciaal hulpmiddel wordt voor het ontwikkelen van echt autonome redeneersystemen in plaats van patroonvolgende agents.
English
RAG (Retrieval-Augmented Generation) systems and web agents are increasingly
evaluated on multi-hop deep search tasks, yet current practice suffers from two
major limitations. First, most benchmarks leak the reasoning path in the
question text, allowing models to follow surface cues rather than discover
reasoning chains autonomously. Second, evaluation is typically reduced to a
single pass rate, which collapses diverse behaviours into one score and
obscures whether failures stem from inadequate search, poor knowledge use, or
inappropriate refusal. To address these issues, we present WebDetective, a
benchmark of hint-free multi-hop questions paired with a controlled Wikipedia
sandbox that ensures full traceability of model actions, and a holistic
evaluation framework that separates search sufficiency, knowledge utilisation,
and refusal behaviour. Our evaluation of 25 state-of-the-art models reveals
systematic weaknesses across all architectures: models struggle with knowledge
utilisation despite having sufficient evidence and demonstrate near-absent
appropriate refusal when evidence is lacking. These patterns expose a
fundamental gap: today's systems excel at executing given reasoning paths but
fail when required to discover them. We develop an agentic workflow,
EvidenceLoop, that explicitly targets the challenges our benchmark identifies,
incorporating verification loops and systematic evidence tracking that improve
both search and synthesis capabilities. This baseline demonstrates that
WebDetective's diagnostic framework can guide concrete architectural
improvements, establishing our benchmark as a critical tool for developing
genuinely autonomous reasoning systems rather than pattern-following agents.