LiveBrowseComp: Suchen Suchagenten wirklich, oder überprüfen sie nur, was sie bereits wissen?

Zusammenfassung

Sind LLM-basierte Suchagenten tatsächlich auf der Suche oder nutzen sie das Web lediglich zur Verifikation bereits vorhandenen Wissens? Wir untersuchen diese Frage anhand von BrowseComp mit drei Diagnoseverfahren. Unsere Analyse zeigt eine Abhängigkeit von intrinsischem Wissen (Intrinsic Knowledge Dependence, IKD): Selbst mit Zugang zu Werkzeugen verlassen sich Agenten oft auf intrinsisches Wissen – Informationen, die vor der Abfrage im Modell kodiert sind – anstatt auf externe Belege. Agenten beantworten bis zu 44,5 % der BrowseComp-Fragen ohne Werkzeuge, generieren mehr als die Hälfte ihrer Suchanfragen aus intern generierten Hypothesen statt aus abgerufenen Hinweisen und schneiden schlechter ab als Closed-Book-Baselines, wenn belegende Evidenz entfernt wird. Diese Ergebnisse legen nahe, dass statische Such-Benchmarks eher gedächtnisgestützte Verifikation als evidenzgetriebene Entdeckung belohnen und dabei vermischen, was Agenten bereits wissen, mit dem, was sie finden können. Wir führen daraufhin LiveBrowseComp ein, einen Deep-Search-Benchmark zur Bewertung von Agenten jenseits intrinsischer Abdeckung. Er enthält 335 von Menschen verfasste Fragen, deren Antworten von Fakten abhängen, die innerhalb von 90 Tagen vor der Erstellung des Benchmarks veröffentlicht wurden, basierend auf sechs aktualisierten Quellen und gefiltert, um global bedeutsame Ereignisse auszuschließen. Auf LiveBrowseComp liegen alle evaluierten Agenten unter 2 % Closed-Book-Genauigkeit, die suchgestützten Ergebnisse fallen um 25–40 Punkte im Vergleich zu BrowseComp, und frühere Modellrankings sind nicht mehr zuverlässig für die Vorhersage der Leistung. LiveBrowseComp ist verfügbar unter https://huggingface.co/datasets/Forival/LiveBrowseComp.

English

Are LLM-based search agents genuinely searching, or using the web to verify what they already know? We study this question on BrowseComp with three diagnostics. Our analysis reveals Intrinsic Knowledge Dependence (IKD): even with tool access, agents often rely on intrinsic knowledge -- information encoded in the model before retrieval -- rather than on external evidence. Agents answer up to 44.5% of BrowseComp questions without tools, generate more than half of their search queries from internally produced hypotheses rather than retrieved leads, and perform worse than closed-book baselines when answer-supporting evidence is removed. These results suggest that static search benchmarks can reward memory-backed verification rather than evidence-driven discovery, conflating what agents already know with what they can find. We then introduce LiveBrowseComp, a deep-search benchmark designed to evaluate agents beyond intrinsic coverage. It contains 335 human-authored questions whose answers depend on facts published within the 90 days preceding benchmark construction, drawn from six updated sources and filtered to exclude globally salient events. On LiveBrowseComp, all evaluated agents fall below 2% closed-book accuracy, search-augmented scores drop by 25-40 points relative to BrowseComp, and prior model rankings no longer reliably predict performance. LiveBrowseComp is available at https://huggingface.co/datasets/Forival/LiveBrowseComp.