EvoBrowseComp : Évaluation comparative des agents de recherche sur des connaissances en évolution

Résumé

Les agents de recherche — des modèles de langage de grande taille enrichis d'outils de recherche — ont renforcé la nécessité de disposer de référentiels d'évaluation pérennes. Les référentiels existants, tels que BrowseComp, reposent sur des connaissances statiques, ce qui les rend vulnérables à la contamination des ensembles de test et à la mémorisation paramétrique. Par conséquent, les modèles peuvent obtenir des scores élevés grâce au rappel de faits plutôt qu'à une récupération authentique, occultant ainsi la véritable compétence de navigation via des raccourcis de raisonnement. Dans cet article, nous présentons EvoBrowseComp, un référentiel évolutif de 400 questions complexes en anglais et 400 en chinois, exemptes de contamination, synthétisées via une navigation sur le web en direct. Pour collecter ces questions, nous concevons un cadre collaboratif à trois agents : (1) un agent de synthèse de questions-réponses qui récupère des connaissances fraîches sur le web en direct pour synthétiser des paires question-réponse ; (2) un agent de filtrage des informations qui filtre les connaissances récupérées en termes de crédibilité et de popularité afin de bloquer les raccourcis paramétriques ; et (3) un agent de guidage de haut niveau qui formalise les questions en graphes de raisonnement pour réduire la redondance logique et les raccourcis dans les paires question-réponse synthétisées. Étant donné que le cadre prend en charge une synthèse entièrement automatisée, EvoBrowseComp peut être régulièrement mis à jour pour prévenir la contamination des données et maintenir une fraîcheur temporelle. Des expériences approfondies confirment sa grande difficulté, nécessitant une large recherche horizontale. Il établit un paradigme évolutif pour un benchmarking auto-mis à jour et de haute difficulté, qui suit le rythme à la fois de l'évolution des connaissances mondiales et des capacités croissantes des agents.

English

Search Agents -- large language models augmented with search tools -- have intensified the need for future-proof evaluation benchmarks. Existing benchmarks such as BrowseComp rely on static knowledge, making them vulnerable to test-set contamination and parametric memorization. Consequently, models can achieve high scores through fact recall rather than genuine retrieval, obscuring true browsing competence via reasoning shortcuts. In this paper, we introduce EvoBrowseComp, an evolving benchmark of 400 English and 400 Chinese contamination-free complex questions synthesized via live-web traversal. To collect these questions, we design a three-agent collaborative framework: (1) a QA synthesis agent that retrieves fresh knowledge from the live web to synthesize QA pairs; (2) an information filtering agent that filters retrieved knowledge in terms of credibility and popularity to block parametric shortcuts; and (3) a high-level guidance agent that formalizes questions into reasoning graphs to reduce logical redundancy and shortcuts in synthesized QA pairs. Because the framework supports fully automated synthesis, EvoBrowseComp can be regularly updated to prevent data contamination and maintain temporal freshness. Extensive experiments confirm its great difficulty, requiring broad horizontal search. It establishes a scalable paradigm for auto-updatable, high-difficulty benchmarking that keeps pace with both evolving world knowledge and advancing agent capabilities.