Desmistificando a busca profunda: uma avaliação holística com perguntas multi-hop sem dicas e métricas fatoradas
Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics
October 1, 2025
Autores: Maojia Song, Renhang Liu, Xinyu Wang, Yong Jiang, Pengjun Xie, Fei Huang, Soujanya Poria, Jingren Zhou
cs.AI
Resumo
Sistemas RAG (Geração Aumentada por Recuperação) e agentes web estão sendo cada vez mais avaliados em tarefas de busca profunda multi-hop, mas a prática atual sofre de duas grandes limitações. Primeiro, a maioria dos benchmarks vaza o caminho de raciocínio no texto da pergunta, permitindo que os modelos sigam pistas superficiais em vez de descobrir cadeias de raciocínio de forma autônoma. Segundo, a avaliação é tipicamente reduzida a uma única taxa de acerto, que colapsa comportamentos diversos em uma única pontuação e obscurece se as falhas decorrem de busca inadequada, uso pobre do conhecimento ou recusa inapropriada. Para abordar essas questões, apresentamos o WebDetective, um benchmark de perguntas multi-hop sem dicas, emparelhado com um ambiente controlado da Wikipedia que garante rastreabilidade completa das ações do modelo, e uma estrutura de avaliação holística que separa suficiência de busca, utilização do conhecimento e comportamento de recusa. Nossa avaliação de 25 modelos state-of-the-art revela fraquezas sistemáticas em todas as arquiteturas: os modelos lutam com a utilização do conhecimento, apesar de terem evidências suficientes, e demonstram quase ausência de recusa apropriada quando as evidências estão faltando. Esses padrões expõem uma lacuna fundamental: os sistemas atuais se destacam em executar caminhos de raciocínio dados, mas falham quando precisam descobri-los. Desenvolvemos um fluxo de trabalho agentivo, EvidenceLoop, que visa explicitamente os desafios identificados pelo nosso benchmark, incorporando loops de verificação e rastreamento sistemático de evidências que melhoram tanto as capacidades de busca quanto de síntese. Essa linha de base demonstra que a estrutura diagnóstica do WebDetective pode orientar melhorias arquitetônicas concretas, estabelecendo nosso benchmark como uma ferramenta crítica para o desenvolvimento de sistemas de raciocínio genuinamente autônomos, em vez de agentes que seguem padrões.
English
RAG (Retrieval-Augmented Generation) systems and web agents are increasingly
evaluated on multi-hop deep search tasks, yet current practice suffers from two
major limitations. First, most benchmarks leak the reasoning path in the
question text, allowing models to follow surface cues rather than discover
reasoning chains autonomously. Second, evaluation is typically reduced to a
single pass rate, which collapses diverse behaviours into one score and
obscures whether failures stem from inadequate search, poor knowledge use, or
inappropriate refusal. To address these issues, we present WebDetective, a
benchmark of hint-free multi-hop questions paired with a controlled Wikipedia
sandbox that ensures full traceability of model actions, and a holistic
evaluation framework that separates search sufficiency, knowledge utilisation,
and refusal behaviour. Our evaluation of 25 state-of-the-art models reveals
systematic weaknesses across all architectures: models struggle with knowledge
utilisation despite having sufficient evidence and demonstrate near-absent
appropriate refusal when evidence is lacking. These patterns expose a
fundamental gap: today's systems excel at executing given reasoning paths but
fail when required to discover them. We develop an agentic workflow,
EvidenceLoop, that explicitly targets the challenges our benchmark identifies,
incorporating verification loops and systematic evidence tracking that improve
both search and synthesis capabilities. This baseline demonstrates that
WebDetective's diagnostic framework can guide concrete architectural
improvements, establishing our benchmark as a critical tool for developing
genuinely autonomous reasoning systems rather than pattern-following agents.