LiveBrowseComp: Ищут ли поисковые агенты или просто проверяют то, что уже знают?

Аннотация

Используют ли поисковые агенты на основе LLM действительно поиск или же обращаются к вебу для верификации того, что им уже известно? Мы изучаем этот вопрос на примере BrowseComp с помощью трёх диагностических методов. Наш анализ выявляет зависимость от внутренних знаний (Intrinsic Knowledge Dependence, IKD): даже имея доступ к инструментам, агенты часто полагаются на внутренние знания — информацию, закодированную в модели до поиска, — вместо внешних свидетельств. Агенты отвечают на 44.5% вопросов BrowseComp без использования инструментов, генерируют более половины своих поисковых запросов на основе внутренне сформированных гипотез, а не на основе найденных подсказок, и показывают результаты хуже, чем базовые модели без доступа к инструментам (closed-book baselines), когда из набора удаляются подтверждающие ответ свидетельства. Эти результаты позволяют предположить, что статические поисковые бенчмарки могут поощрять верификацию, основанную на памяти, а не на выявлении фактов через поиск, смешивая то, что агенты уже знают, с тем, что они могут найти. Затем мы представляем LiveBrowseComp — бенчмарк глубинного поиска, разработанный для оценки агентов за пределами их внутреннего покрытия. Он содержит 335 вопросов, составленных людьми, ответы на которые зависят от фактов, опубликованных в течение 90 дней, предшествующих созданию бенчмарка; эти факты извлечены из шести обновляемых источников и отфильтрованы для исключения глобально значимых событий. На LiveBrowseComp все оценённые агенты демонстрируют точность в режиме closed-book ниже 2%, а показатели с использованием поиска падают на 25–40 баллов по сравнению с BrowseComp, при этом прежние рейтинги моделей больше не позволяют надёжно предсказывать их производительность. LiveBrowseComp доступен по адресу https://huggingface.co/datasets/Forival/LiveBrowseComp.

English

Are LLM-based search agents genuinely searching, or using the web to verify what they already know? We study this question on BrowseComp with three diagnostics. Our analysis reveals Intrinsic Knowledge Dependence (IKD): even with tool access, agents often rely on intrinsic knowledge -- information encoded in the model before retrieval -- rather than on external evidence. Agents answer up to 44.5% of BrowseComp questions without tools, generate more than half of their search queries from internally produced hypotheses rather than retrieved leads, and perform worse than closed-book baselines when answer-supporting evidence is removed. These results suggest that static search benchmarks can reward memory-backed verification rather than evidence-driven discovery, conflating what agents already know with what they can find. We then introduce LiveBrowseComp, a deep-search benchmark designed to evaluate agents beyond intrinsic coverage. It contains 335 human-authored questions whose answers depend on facts published within the 90 days preceding benchmark construction, drawn from six updated sources and filtered to exclude globally salient events. On LiveBrowseComp, all evaluated agents fall below 2% closed-book accuracy, search-augmented scores drop by 25-40 points relative to BrowseComp, and prior model rankings no longer reliably predict performance. LiveBrowseComp is available at https://huggingface.co/datasets/Forival/LiveBrowseComp.