Démystification de la recherche approfondie : une évaluation holistique avec des questions multi-sauts sans indices et des métriques factorisées
Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics
October 1, 2025
papers.authors: Maojia Song, Renhang Liu, Xinyu Wang, Yong Jiang, Pengjun Xie, Fei Huang, Soujanya Poria, Jingren Zhou
cs.AI
papers.abstract
Les systèmes RAG (Retrieval-Augmented Generation) et les agents web sont de plus en plus évalués sur des tâches de recherche approfondie multi-étapes, mais les pratiques actuelles souffrent de deux limitations majeures. Premièrement, la plupart des benchmarks divulguent le chemin de raisonnement dans le texte de la question, permettant aux modèles de suivre des indices superficiels plutôt que de découvrir des chaînes de raisonnement de manière autonome. Deuxièmement, l'évaluation se réduit généralement à un taux de réussite unique, ce qui condense des comportements divers en un seul score et masque si les échecs proviennent d'une recherche inadéquate, d'une mauvaise utilisation des connaissances ou d'un refus inapproprié. Pour résoudre ces problèmes, nous présentons WebDetective, un benchmark de questions multi-étapes sans indices, associé à un bac à sable contrôlé de Wikipédia qui assure une traçabilité complète des actions du modèle, ainsi qu'un cadre d'évaluation holistique qui distingue la suffisance de la recherche, l'utilisation des connaissances et le comportement de refus. Notre évaluation de 25 modèles de pointe révèle des faiblesses systématiques dans toutes les architectures : les modèles peinent à utiliser les connaissances malgré des preuves suffisantes et montrent un refus approprié quasi absent lorsque les preuves manquent. Ces tendances mettent en lumière un écart fondamental : les systèmes actuels excellent à exécuter des chemins de raisonnement donnés, mais échouent lorsqu'il s'agit de les découvrir. Nous développons un workflow agentique, EvidenceLoop, qui cible explicitement les défis identifiés par notre benchmark, intégrant des boucles de vérification et un suivi systématique des preuves qui améliorent à la fois les capacités de recherche et de synthèse. Cette base de référence démontre que le cadre diagnostique de WebDetective peut guider des améliorations architecturales concrètes, établissant notre benchmark comme un outil essentiel pour développer des systèmes de raisonnement véritablement autonomes plutôt que des agents suivant des schémas prédéfinis.
English
RAG (Retrieval-Augmented Generation) systems and web agents are increasingly
evaluated on multi-hop deep search tasks, yet current practice suffers from two
major limitations. First, most benchmarks leak the reasoning path in the
question text, allowing models to follow surface cues rather than discover
reasoning chains autonomously. Second, evaluation is typically reduced to a
single pass rate, which collapses diverse behaviours into one score and
obscures whether failures stem from inadequate search, poor knowledge use, or
inappropriate refusal. To address these issues, we present WebDetective, a
benchmark of hint-free multi-hop questions paired with a controlled Wikipedia
sandbox that ensures full traceability of model actions, and a holistic
evaluation framework that separates search sufficiency, knowledge utilisation,
and refusal behaviour. Our evaluation of 25 state-of-the-art models reveals
systematic weaknesses across all architectures: models struggle with knowledge
utilisation despite having sufficient evidence and demonstrate near-absent
appropriate refusal when evidence is lacking. These patterns expose a
fundamental gap: today's systems excel at executing given reasoning paths but
fail when required to discover them. We develop an agentic workflow,
EvidenceLoop, that explicitly targets the challenges our benchmark identifies,
incorporating verification loops and systematic evidence tracking that improve
both search and synthesis capabilities. This baseline demonstrates that
WebDetective's diagnostic framework can guide concrete architectural
improvements, establishing our benchmark as a critical tool for developing
genuinely autonomous reasoning systems rather than pattern-following agents.