LiveBrowseComp: Zoeken zoekagenten, of verifiëren ze alleen wat ze al weten?

Samenvatting

Zijn op LLM's gebaseerde zoekagenten daadwerkelijk aan het zoeken, of gebruiken ze het web om te verifiëren wat ze al weten? We bestuderen deze vraag op BrowseComp met drie diagnostieken. Onze analyse onthult Intrinsieke Kennisafhankelijkheid (IKD): zelfs met toegang tot hulpmiddelen vertrouwen agenten vaak op intrinsieke kennis — informatie die in het model is gecodeerd vóór het ophalen — in plaats van op extern bewijs. Agenten beantwoorden tot 44,5% van de BrowseComp-vragen zonder hulpmiddelen, genereren meer dan de helft van hun zoekopdrachten op basis van intern geproduceerde hypotheses in plaats van opgehaalde aanwijzingen, en presteren slechter dan closed-book-baselines wanneer ondersteunend bewijs voor antwoorden wordt verwijderd. Deze resultaten suggereren dat statische zoekbenchmarks geheugengebaseerde verificatie kunnen belonen in plaats van door bewijs gedreven ontdekking, waardoor wordt verward wat agenten al weten met wat ze kunnen vinden. Vervolgens introduceren we LiveBrowseComp, een deep-search-benchmark die is ontworpen om agenten te evalueren buiten intrinsieke dekking. Het bevat 335 door mensen geschreven vragen waarvan de antwoorden afhankelijk zijn van feiten die zijn gepubliceerd in de 90 dagen voorafgaand aan de constructie van de benchmark, afkomstig uit zes bijgewerkte bronnen en gefilterd om wereldwijd opvallende gebeurtenissen uit te sluiten. Op LiveBrowseComp vallen alle geëvalueerde agenten onder de 2% closed-book-nauwkeurigheid, dalen de door zoeken aangevulde scores met 25-40 punten ten opzichte van BrowseComp, en voorspellen eerdere modellerranglijsten niet langer betrouwbaar de prestaties. LiveBrowseComp is beschikbaar op https://huggingface.co/datasets/Forival/LiveBrowseComp.

English

Are LLM-based search agents genuinely searching, or using the web to verify what they already know? We study this question on BrowseComp with three diagnostics. Our analysis reveals Intrinsic Knowledge Dependence (IKD): even with tool access, agents often rely on intrinsic knowledge -- information encoded in the model before retrieval -- rather than on external evidence. Agents answer up to 44.5% of BrowseComp questions without tools, generate more than half of their search queries from internally produced hypotheses rather than retrieved leads, and perform worse than closed-book baselines when answer-supporting evidence is removed. These results suggest that static search benchmarks can reward memory-backed verification rather than evidence-driven discovery, conflating what agents already know with what they can find. We then introduce LiveBrowseComp, a deep-search benchmark designed to evaluate agents beyond intrinsic coverage. It contains 335 human-authored questions whose answers depend on facts published within the 90 days preceding benchmark construction, drawn from six updated sources and filtered to exclude globally salient events. On LiveBrowseComp, all evaluated agents fall below 2% closed-book accuracy, search-augmented scores drop by 25-40 points relative to BrowseComp, and prior model rankings no longer reliably predict performance. LiveBrowseComp is available at https://huggingface.co/datasets/Forival/LiveBrowseComp.