EvoBrowseComp: Benchmarking de Agentes de Busca em Conhecimento em Evolução

Resumo

Agentes de busca — modelos de linguagem de grande escala aumentados com ferramentas de busca — intensificaram a necessidade de benchmarks de avaliação à prova do futuro. Benchmarks existentes, como o BrowseComp, dependem de conhecimento estático, tornando-os vulneráveis à contaminação do conjunto de teste e à memorização paramétrica. Consequentemente, os modelos podem alcançar altas pontuações por meio de recuperação factual em vez de busca genuína, obscurecendo a verdadeira competência de navegação através de atalhos de raciocínio. Neste artigo, apresentamos o EvoBrowseComp, um benchmark evolutivo composto por 400 questões complexas em inglês e 400 em chinês, livres de contaminação, sintetizadas via navegação na web ao vivo. Para coletar essas questões, projetamos um framework colaborativo de três agentes: (1) um agente de síntese de QA que recupera conhecimento atualizado da web ao vivo para sintetizar pares de pergunta e resposta; (2) um agente de filtragem de informações que filtra o conhecimento recuperado quanto à credibilidade e popularidade para bloquear atalhos paramétricos; e (3) um agente de orientação de alto nível que formaliza as questões em grafos de raciocínio para reduzir a redundância lógica e atalhos nos pares de QA sintetizados. Como o framework suporta síntese totalmente automatizada, o EvoBrowseComp pode ser atualizado regularmente para prevenir contaminação de dados e manter a atualidade temporal. Experimentos extensivos confirmam sua grande dificuldade, exigindo ampla busca horizontal. Ele estabelece um paradigma escalável para benchmarking auto-atualizável e de alta dificuldade que acompanha tanto a evolução do conhecimento mundial quanto o avanço das capacidades dos agentes.

English

Search Agents -- large language models augmented with search tools -- have intensified the need for future-proof evaluation benchmarks. Existing benchmarks such as BrowseComp rely on static knowledge, making them vulnerable to test-set contamination and parametric memorization. Consequently, models can achieve high scores through fact recall rather than genuine retrieval, obscuring true browsing competence via reasoning shortcuts. In this paper, we introduce EvoBrowseComp, an evolving benchmark of 400 English and 400 Chinese contamination-free complex questions synthesized via live-web traversal. To collect these questions, we design a three-agent collaborative framework: (1) a QA synthesis agent that retrieves fresh knowledge from the live web to synthesize QA pairs; (2) an information filtering agent that filters retrieved knowledge in terms of credibility and popularity to block parametric shortcuts; and (3) a high-level guidance agent that formalizes questions into reasoning graphs to reduce logical redundancy and shortcuts in synthesized QA pairs. Because the framework supports fully automated synthesis, EvoBrowseComp can be regularly updated to prevent data contamination and maintain temporal freshness. Extensive experiments confirm its great difficulty, requiring broad horizontal search. It establishes a scalable paradigm for auto-updatable, high-difficulty benchmarking that keeps pace with both evolving world knowledge and advancing agent capabilities.