ChatPaper.aiChatPaper

Desmitificando la búsqueda profunda: una evaluación holística con preguntas multi-salto sin pistas y métricas factorizadas

Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics

October 1, 2025
Autores: Maojia Song, Renhang Liu, Xinyu Wang, Yong Jiang, Pengjun Xie, Fei Huang, Soujanya Poria, Jingren Zhou
cs.AI

Resumen

Los sistemas RAG (Generación Aumentada por Recuperación) y los agentes web son cada vez más evaluados en tareas de búsqueda profunda de múltiples saltos, aunque la práctica actual adolece de dos limitaciones principales. En primer lugar, la mayoría de los puntos de referencia filtran la ruta de razonamiento en el texto de la pregunta, lo que permite a los modelos seguir indicios superficiales en lugar de descubrir cadenas de razonamiento de manera autónoma. En segundo lugar, la evaluación suele reducirse a una única tasa de acierto, lo que comprime comportamientos diversos en una sola puntuación y oscurece si los fallos se deben a una búsqueda inadecuada, un uso deficiente del conocimiento o una negativa inapropiada. Para abordar estos problemas, presentamos WebDetective, un punto de referencia de preguntas de múltiples saltos sin pistas, acompañado de un entorno controlado de Wikipedia que garantiza la trazabilidad completa de las acciones del modelo, y un marco de evaluación holístico que separa la suficiencia de la búsqueda, la utilización del conocimiento y el comportamiento de negativa. Nuestra evaluación de 25 modelos de última generación revela debilidades sistemáticas en todas las arquitecturas: los modelos luchan con la utilización del conocimiento a pesar de tener evidencia suficiente y muestran una negativa apropiada casi ausente cuando falta evidencia. Estos patrones exponen una brecha fundamental: los sistemas actuales sobresalen en la ejecución de rutas de razonamiento dadas, pero fallan cuando se requiere descubrirlas. Desarrollamos un flujo de trabajo agentivo, EvidenceLoop, que aborda explícitamente los desafíos identificados por nuestro punto de referencia, incorporando bucles de verificación y seguimiento sistemático de evidencia que mejoran tanto las capacidades de búsqueda como de síntesis. Esta línea base demuestra que el marco diagnóstico de WebDetective puede guiar mejoras arquitectónicas concretas, estableciendo nuestro punto de referencia como una herramienta crítica para desarrollar sistemas de razonamiento genuinamente autónomos en lugar de agentes que siguen patrones.
English
RAG (Retrieval-Augmented Generation) systems and web agents are increasingly evaluated on multi-hop deep search tasks, yet current practice suffers from two major limitations. First, most benchmarks leak the reasoning path in the question text, allowing models to follow surface cues rather than discover reasoning chains autonomously. Second, evaluation is typically reduced to a single pass rate, which collapses diverse behaviours into one score and obscures whether failures stem from inadequate search, poor knowledge use, or inappropriate refusal. To address these issues, we present WebDetective, a benchmark of hint-free multi-hop questions paired with a controlled Wikipedia sandbox that ensures full traceability of model actions, and a holistic evaluation framework that separates search sufficiency, knowledge utilisation, and refusal behaviour. Our evaluation of 25 state-of-the-art models reveals systematic weaknesses across all architectures: models struggle with knowledge utilisation despite having sufficient evidence and demonstrate near-absent appropriate refusal when evidence is lacking. These patterns expose a fundamental gap: today's systems excel at executing given reasoning paths but fail when required to discover them. We develop an agentic workflow, EvidenceLoop, that explicitly targets the challenges our benchmark identifies, incorporating verification loops and systematic evidence tracking that improve both search and synthesis capabilities. This baseline demonstrates that WebDetective's diagnostic framework can guide concrete architectural improvements, establishing our benchmark as a critical tool for developing genuinely autonomous reasoning systems rather than pattern-following agents.
PDF42October 8, 2025