EvoBrowseComp: Evaluación comparativa de agentes de búsqueda en conocimiento en evolución

Resumen

Los Agentes de Búsqueda —modelos de lenguaje de gran escala aumentados con herramientas de búsqueda— han intensificado la necesidad de disponer de puntos de referencia de evaluación a prueba de futuro. Los puntos de referencia existentes, como BrowseComp, se basan en conocimiento estático, lo que los hace vulnerables a la contaminación del conjunto de prueba y a la memorización paramétrica. En consecuencia, los modelos pueden alcanzar puntuaciones elevadas mediante el recuerdo de hechos en lugar de una auténtica recuperación, ocultando la verdadera competencia de navegación a través de atajos de razonamiento. En este artículo presentamos EvoBrowseComp, un punto de referencia en evolución que consta de 400 preguntas complejas en inglés y 400 en chino, libres de contaminación, sintetizadas mediante recorridos de la web en vivo. Para recopilar estas preguntas, diseñamos un marco colaborativo de tres agentes: (1) un agente de síntesis de preguntas y respuestas que recupera conocimiento actualizado de la web en vivo para sintetizar pares de preguntas y respuestas; (2) un agente de filtrado de información que filtra el conocimiento recuperado en términos de credibilidad y popularidad para bloquear atajos paramétricos; y (3) un agente de guía de alto nivel que formaliza las preguntas en gráficos de razonamiento para reducir la redundancia lógica y los atajos en los pares de preguntas y respuestas sintetizados. Debido a que el marco admite una síntesis completamente automatizada, EvoBrowseComp puede actualizarse periódicamente para prevenir la contaminación de datos y mantener la vigencia temporal. Experimentos exhaustivos confirman su gran dificultad, ya que requiere una amplia búsqueda horizontal. Este establece un paradigma escalable para la creación de puntos de referencia actualizables automáticamente y de alta dificultad, que se mantienen al ritmo tanto del conocimiento mundial en evolución como de las capacidades cada vez más avanzadas de los agentes.

English

Search Agents -- large language models augmented with search tools -- have intensified the need for future-proof evaluation benchmarks. Existing benchmarks such as BrowseComp rely on static knowledge, making them vulnerable to test-set contamination and parametric memorization. Consequently, models can achieve high scores through fact recall rather than genuine retrieval, obscuring true browsing competence via reasoning shortcuts. In this paper, we introduce EvoBrowseComp, an evolving benchmark of 400 English and 400 Chinese contamination-free complex questions synthesized via live-web traversal. To collect these questions, we design a three-agent collaborative framework: (1) a QA synthesis agent that retrieves fresh knowledge from the live web to synthesize QA pairs; (2) an information filtering agent that filters retrieved knowledge in terms of credibility and popularity to block parametric shortcuts; and (3) a high-level guidance agent that formalizes questions into reasoning graphs to reduce logical redundancy and shortcuts in synthesized QA pairs. Because the framework supports fully automated synthesis, EvoBrowseComp can be regularly updated to prevent data contamination and maintain temporal freshness. Extensive experiments confirm its great difficulty, requiring broad horizontal search. It establishes a scalable paradigm for auto-updatable, high-difficulty benchmarking that keeps pace with both evolving world knowledge and advancing agent capabilities.