ChatPaper.aiChatPaper

Разоблачение глубинного поиска: комплексная оценка с использованием многошаговых вопросов без подсказок и факторизованных метрик

Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics

October 1, 2025
Авторы: Maojia Song, Renhang Liu, Xinyu Wang, Yong Jiang, Pengjun Xie, Fei Huang, Soujanya Poria, Jingren Zhou
cs.AI

Аннотация

Системы RAG (Retrieval-Augmented Generation) и веб-агенты всё чаще оцениваются на задачах многошагового глубокого поиска, однако текущая практика страдает от двух основных ограничений. Во-первых, большинство бенчмарков раскрывают цепочку рассуждений в тексте вопроса, что позволяет моделям следовать поверхностным подсказкам вместо самостоятельного обнаружения логических связей. Во-вторых, оценка обычно сводится к единому показателю успешности, который объединяет разнообразные поведенческие паттерны в один балл и скрывает, вызваны ли ошибки недостаточным поиском, неэффективным использованием знаний или необоснованным отказом. Для решения этих проблем мы представляем WebDetective — бенчмарк, состоящий из вопросов с многошаговым поиском без подсказок, который сопровождается контролируемой песочницей Wikipedia, обеспечивающей полную отслеживаемость действий модели, а также целостной системой оценки, разделяющей достаточность поиска, использование знаний и поведение при отказе. Наша оценка 25 современных моделей выявила систематические слабости во всех архитектурах: модели испытывают трудности с использованием знаний, даже при наличии достаточных доказательств, и почти никогда не отказываются корректно при их отсутствии. Эти паттерны указывают на фундаментальный разрыв: современные системы преуспевают в выполнении заданных цепочек рассуждений, но терпят неудачу, когда требуется их самостоятельное обнаружение. Мы разработали агентский рабочий процесс EvidenceLoop, который явно нацелен на вызовы, выявленные нашим бенчмарком, включая циклы проверки и систематическое отслеживание доказательств, что улучшает как поисковые, так и синтетические способности. Этот базовый подход демонстрирует, что диагностическая структура WebDetective может направлять конкретные архитектурные улучшения, делая наш бенчмарк ключевым инструментом для разработки действительно автономных систем рассуждений, а не агентов, следующих шаблонам.
English
RAG (Retrieval-Augmented Generation) systems and web agents are increasingly evaluated on multi-hop deep search tasks, yet current practice suffers from two major limitations. First, most benchmarks leak the reasoning path in the question text, allowing models to follow surface cues rather than discover reasoning chains autonomously. Second, evaluation is typically reduced to a single pass rate, which collapses diverse behaviours into one score and obscures whether failures stem from inadequate search, poor knowledge use, or inappropriate refusal. To address these issues, we present WebDetective, a benchmark of hint-free multi-hop questions paired with a controlled Wikipedia sandbox that ensures full traceability of model actions, and a holistic evaluation framework that separates search sufficiency, knowledge utilisation, and refusal behaviour. Our evaluation of 25 state-of-the-art models reveals systematic weaknesses across all architectures: models struggle with knowledge utilisation despite having sufficient evidence and demonstrate near-absent appropriate refusal when evidence is lacking. These patterns expose a fundamental gap: today's systems excel at executing given reasoning paths but fail when required to discover them. We develop an agentic workflow, EvidenceLoop, that explicitly targets the challenges our benchmark identifies, incorporating verification loops and systematic evidence tracking that improve both search and synthesis capabilities. This baseline demonstrates that WebDetective's diagnostic framework can guide concrete architectural improvements, establishing our benchmark as a critical tool for developing genuinely autonomous reasoning systems rather than pattern-following agents.
PDF42October 8, 2025