Explorar para Evolucionar: Escalando la Lógica de Agregación Evolucionada mediante Exploración Proactiva en Línea para Agentes de Investigación Profunda
Explore to Evolve: Scaling Evolved Aggregation Logic via Proactive Online Exploration for Deep Research Agents
October 16, 2025
Autores: Rui Wang, Ce Zhang, Jun-Yu Ma, Jianshu Zhang, Hongru Wang, Yi Chen, Boyang Xue, Tianqing Fang, Zhisong Zhang, Hongming Zhang, Haitao Mi, Dong Yu, Kam-Fai Wong
cs.AI
Resumen
Los agentes de investigación profunda en la web no solo recuperan información de diversas fuentes, como entornos web, archivos y entradas multimodales, sino que, más importante aún, necesitan analizar y agregar conocimiento de manera rigurosa para realizar investigaciones perspicaces. Sin embargo, los agentes de investigación profunda de código abierto existentes se centran principalmente en mejorar las capacidades de búsqueda de información de los agentes web para localizar datos específicos, pasando por alto la necesidad esencial de agregación de información, lo que limitaría su capacidad para apoyar investigaciones en profundidad. Proponemos un paradigma de "Explorar para Evolucionar" para construir de manera escalable datos de entrenamiento verificables para agentes web. Comenzando con una exploración proactiva en línea, un agente obtiene información fundamentada al explorar la web real. Utilizando la evidencia recopilada, el agente luego autoevoluciona un programa de agregación seleccionando, componiendo y refinando operaciones de 12 tipos lógicos de alto nivel para sintetizar un par de preguntas y respuestas (QA) verificable. Esta evolución desde una guía de alto nivel hasta operaciones concretas nos permitió producir de manera escalable WebAggregatorQA, un conjunto de datos de 10K muestras en 50K sitios web y 11 dominios. Basándonos en un marco de agente de código abierto, SmolAgents, recopilamos trayectorias de ajuste fino supervisado para desarrollar una serie de modelos fundamentales, WebAggregator. WebAggregator-8B iguala el rendimiento de GPT-4.1, mientras que la variante de 32B supera a GPT-4.1 en más de un 10% en GAIA-text y se acerca mucho a Claude-3.7-sonnet. Además, dada la disponibilidad limitada de puntos de referencia que evalúan las capacidades de agregación de información de los agentes web, construimos una división de evaluación anotada manualmente de WebAggregatorQA como un conjunto de pruebas desafiante. En este punto de referencia, Claude-3.7-sonnet solo alcanza un 28%, y GPT-4.1 obtiene un 25.8%. Incluso cuando los agentes logran recuperar todas las referencias, todavía tienen dificultades en WebAggregatorQA, lo que destaca la necesidad de fortalecer las capacidades de agregación de información de los fundamentos de los agentes web.
English
Deep research web agents not only retrieve information from diverse sources
such as web environments, files, and multimodal inputs, but more importantly,
they need to rigorously analyze and aggregate knowledge for insightful
research. However, existing open-source deep research agents predominantly
focus on enhancing information-seeking capabilities of web agents to locate
specific information, while overlooking the essential need for information
aggregation, which would limit their ability to support in-depth research. We
propose an Explore to Evolve paradigm to scalably construct verifiable training
data for web agents. Begins with proactive online exploration, an agent sources
grounded information by exploring the real web. Using the collected evidence,
the agent then self-evolves an aggregation program by selecting, composing, and
refining operations from 12 high-level logical types to synthesize a verifiable
QA pair. This evolution from high-level guidance to concrete operations allowed
us to scalably produce WebAggregatorQA, a dataset of 10K samples across 50K
websites and 11 domains. Based on an open-source agent framework, SmolAgents,
we collect supervised fine-tuning trajectories to develop a series of
foundation models, WebAggregator. WebAggregator-8B matches the performance of
GPT-4.1, while the 32B variant surpasses GPT-4.1 by more than 10% on GAIA-text
and closely approaches Claude-3.7-sonnet. Moreover, given the limited
availability of benchmarks that evaluate web agents' information aggregation
abilities, we construct a human-annotated evaluation split of WebAggregatorQA
as a challenging test set. On this benchmark, Claude-3.7-sonnet only achieves
28%, and GPT-4.1 scores 25.8%. Even when agents manage to retrieve all
references, they still struggle on WebAggregatorQA, highlighting the need to
strengthen the information aggregation capabilities of web agent foundations.