EvoBrowseComp: Benchmarking von Suchagenten auf sich entwickelndem Wissen

Zusammenfassung

Suchagenten – große Sprachmodelle, die mit Suchwerkzeugen ergänzt werden – haben den Bedarf an zukunftssicheren Evaluierungsbenchmarks verstärkt. Bestehende Benchmarks wie BrowseComp stützen sich auf statisches Wissen und sind daher anfällig für Testset-Kontamination und parametrische Memorisierung. Folglich können Modelle durch Faktenabruf anstelle echter Suche hohe Punktzahlen erzielen, was die wahre Browsing-Kompetenz durch Argumentationsabkürzungen verschleiert. In dieser Arbeit stellen wir EvoBrowseComp vor, einen sich weiterentwickelnden Benchmark aus 400 englischen und 400 chinesischen kontaminationsfreien komplexen Fragen, die mittels Live-Web-Durchquerung synthetisiert wurden. Zur Erhebung dieser Fragen entwerfen wir ein kollaboratives Drei-Agenten-Framework: (1) einen QA-Syntheseagenten, der aktuelles Wissen aus dem Live-Web abruft, um QA-Paare zu synthetisieren; (2) einen Informationsfilteragenten, der das abgerufene Wissen hinsichtlich Glaubwürdigkeit und Popularität filtert, um parametrische Abkürzungen zu blockieren; und (3) einen übergeordneten Leitagenten, der Fragen in Schlussfolgerungsgraphen formalisiert, um logische Redundanzen und Abkürzungen in synthetisierten QA-Paaren zu reduzieren. Da das Framework eine vollautomatische Synthese unterstützt, kann EvoBrowseComp regelmäßig aktualisiert werden, um Datenkontamination zu verhindern und zeitliche Aktualität zu gewährleisten. Umfangreiche Experimente bestätigen seine hohe Schwierigkeit, die eine breite horizontale Suche erfordert. Es etabliert ein skalierbares Paradigma für automatisch aktualisierbares Benchmarking mit hohem Schwierigkeitsgrad, das sowohl mit dem sich wandelnden Weltwissen als auch mit den fortschreitenden Agentenfähigkeiten Schritt hält.

English

Search Agents -- large language models augmented with search tools -- have intensified the need for future-proof evaluation benchmarks. Existing benchmarks such as BrowseComp rely on static knowledge, making them vulnerable to test-set contamination and parametric memorization. Consequently, models can achieve high scores through fact recall rather than genuine retrieval, obscuring true browsing competence via reasoning shortcuts. In this paper, we introduce EvoBrowseComp, an evolving benchmark of 400 English and 400 Chinese contamination-free complex questions synthesized via live-web traversal. To collect these questions, we design a three-agent collaborative framework: (1) a QA synthesis agent that retrieves fresh knowledge from the live web to synthesize QA pairs; (2) an information filtering agent that filters retrieved knowledge in terms of credibility and popularity to block parametric shortcuts; and (3) a high-level guidance agent that formalizes questions into reasoning graphs to reduce logical redundancy and shortcuts in synthesized QA pairs. Because the framework supports fully automated synthesis, EvoBrowseComp can be regularly updated to prevent data contamination and maintain temporal freshness. Extensive experiments confirm its great difficulty, requiring broad horizontal search. It establishes a scalable paradigm for auto-updatable, high-difficulty benchmarking that keeps pace with both evolving world knowledge and advancing agent capabilities.