EvoBrowseComp: Benchmarking van zoekagenten op evoluerende kennis

Samenvatting

Zoekagenten – grote taalmodellen aangevuld met zoekinstrumenten – hebben de behoefte aan toekomstbestendige evaluatiebenchmarks versterkt. Bestaande benchmarks zoals BrowseComp zijn afhankelijk van statische kennis, waardoor ze kwetsbaar zijn voor testsetcontaminatie en parametrische memorisatie. Bijgevolg kunnen modellen hoge scores behalen door feiten te herinneren in plaats van daadwerkelijk te zoeken, waardoor de echte browsecompetentie wordt verdoezeld via redeneersnelkoppelingen. In dit artikel introduceren we EvoBrowseComp, een evoluerende benchmark van 400 Engelse en 400 Chinese contaminatievrije complexe vragen die zijn gesynthetiseerd via live-webdoorkruising. Om deze vragen te verzamelen, ontwerpen we een raamwerk met drie samenwerkende agenten: (1) een QA-syntheseagent die actuele kennis van het live-web ophaalt om QA-paren te synthetiseren; (2) een informatiefilterende agent die opgehaalde kennis filtert op geloofwaardigheid en populariteit om parametrische snelkoppelingen te blokkeren; en (3) een hoog-niveau begeleidingsagent die vragen formaliseert in redeneergrafieken om logische redundantie en snelkoppelingen in gesynthetiseerde QA-paren te verminderen. Omdat het raamwerk volledig geautomatiseerde synthese ondersteunt, kan EvoBrowseComp regelmatig worden bijgewerkt om datacontaminatie te voorkomen en de temporele actualiteit te behouden. Uitgebreide experimenten bevestigen de grote moeilijkheidsgraad, die een breed horizontaal zoeken vereist. Het schept een schaalbaar paradigma voor automatisch bij te werken, hoog-moeilijkheidsbenchmarks die gelijke tred houden met zowel evoluerende wereldkennis als voortschrijdende agentmogelijkheden.

English

Search Agents -- large language models augmented with search tools -- have intensified the need for future-proof evaluation benchmarks. Existing benchmarks such as BrowseComp rely on static knowledge, making them vulnerable to test-set contamination and parametric memorization. Consequently, models can achieve high scores through fact recall rather than genuine retrieval, obscuring true browsing competence via reasoning shortcuts. In this paper, we introduce EvoBrowseComp, an evolving benchmark of 400 English and 400 Chinese contamination-free complex questions synthesized via live-web traversal. To collect these questions, we design a three-agent collaborative framework: (1) a QA synthesis agent that retrieves fresh knowledge from the live web to synthesize QA pairs; (2) an information filtering agent that filters retrieved knowledge in terms of credibility and popularity to block parametric shortcuts; and (3) a high-level guidance agent that formalizes questions into reasoning graphs to reduce logical redundancy and shortcuts in synthesized QA pairs. Because the framework supports fully automated synthesis, EvoBrowseComp can be regularly updated to prevent data contamination and maintain temporal freshness. Extensive experiments confirm its great difficulty, requiring broad horizontal search. It establishes a scalable paradigm for auto-updatable, high-difficulty benchmarking that keeps pace with both evolving world knowledge and advancing agent capabilities.