Demistificare la ricerca profonda: una valutazione olistica con domande multi-hop senza suggerimenti e metriche fattorizzate
Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics
October 1, 2025
Autori: Maojia Song, Renhang Liu, Xinyu Wang, Yong Jiang, Pengjun Xie, Fei Huang, Soujanya Poria, Jingren Zhou
cs.AI
Abstract
I sistemi RAG (Retrieval-Augmented Generation) e gli agenti web sono sempre più valutati su compiti di ricerca profonda multi-hop, ma la pratica attuale soffre di due principali limitazioni. In primo luogo, la maggior parte dei benchmark rivela il percorso di ragionamento nel testo della domanda, consentendo ai modelli di seguire indizi superficiali piuttosto che scoprire catene di ragionamento in modo autonomo. In secondo luogo, la valutazione è tipicamente ridotta a un tasso di successo singolo, che comprime comportamenti diversi in un unico punteggio e oscura se gli errori derivano da una ricerca inadeguata, un uso scadente delle conoscenze o un rifiuto inappropriato. Per affrontare questi problemi, presentiamo WebDetective, un benchmark di domande multi-hop prive di indizi abbinato a un sandbox controllato di Wikipedia che garantisce la completa tracciabilità delle azioni del modello, e un framework di valutazione olistico che separa la sufficienza della ricerca, l'utilizzo delle conoscenze e il comportamento di rifiuto. La nostra valutazione di 25 modelli all'avanguardia rivela debolezze sistematiche in tutte le architetture: i modelli faticano a utilizzare le conoscenze nonostante abbiano prove sufficienti e dimostrano un rifiuto appropriato quasi assente quando le prove mancano. Questi schemi rivelano un divario fondamentale: i sistemi odierni eccellono nell'eseguire percorsi di ragionamento dati, ma falliscono quando è necessario scoprirli. Sviluppiamo un flusso di lavoro agentico, EvidenceLoop, che mira esplicitamente alle sfide identificate dal nostro benchmark, incorporando cicli di verifica e un monitoraggio sistematico delle prove che migliorano sia le capacità di ricerca che di sintesi. Questa baseline dimostra che il framework diagnostico di WebDetective può guidare miglioramenti architetturali concreti, stabilendo il nostro benchmark come uno strumento cruciale per sviluppare sistemi di ragionamento veramente autonomi piuttosto che agenti che seguono schemi.
English
RAG (Retrieval-Augmented Generation) systems and web agents are increasingly
evaluated on multi-hop deep search tasks, yet current practice suffers from two
major limitations. First, most benchmarks leak the reasoning path in the
question text, allowing models to follow surface cues rather than discover
reasoning chains autonomously. Second, evaluation is typically reduced to a
single pass rate, which collapses diverse behaviours into one score and
obscures whether failures stem from inadequate search, poor knowledge use, or
inappropriate refusal. To address these issues, we present WebDetective, a
benchmark of hint-free multi-hop questions paired with a controlled Wikipedia
sandbox that ensures full traceability of model actions, and a holistic
evaluation framework that separates search sufficiency, knowledge utilisation,
and refusal behaviour. Our evaluation of 25 state-of-the-art models reveals
systematic weaknesses across all architectures: models struggle with knowledge
utilisation despite having sufficient evidence and demonstrate near-absent
appropriate refusal when evidence is lacking. These patterns expose a
fundamental gap: today's systems excel at executing given reasoning paths but
fail when required to discover them. We develop an agentic workflow,
EvidenceLoop, that explicitly targets the challenges our benchmark identifies,
incorporating verification loops and systematic evidence tracking that improve
both search and synthesis capabilities. This baseline demonstrates that
WebDetective's diagnostic framework can guide concrete architectural
improvements, establishing our benchmark as a critical tool for developing
genuinely autonomous reasoning systems rather than pattern-following agents.