Explorar para Evolucionar: Escalando la Lógica de Agregación Evolucionada mediante Exploración Proactiva en Línea para Agentes de Investigación Profunda

Resumen

Los agentes de investigación profunda en la web no solo recuperan información de diversas fuentes, como entornos web, archivos y entradas multimodales, sino que, más importante aún, necesitan analizar y agregar conocimiento de manera rigurosa para realizar investigaciones perspicaces. Sin embargo, los agentes de investigación profunda de código abierto existentes se centran principalmente en mejorar las capacidades de búsqueda de información de los agentes web para localizar datos específicos, pasando por alto la necesidad esencial de agregación de información, lo que limitaría su capacidad para apoyar investigaciones en profundidad. Proponemos un paradigma de "Explorar para Evolucionar" para construir de manera escalable datos de entrenamiento verificables para agentes web. Comenzando con una exploración proactiva en línea, un agente obtiene información fundamentada al explorar la web real. Utilizando la evidencia recopilada, el agente luego autoevoluciona un programa de agregación seleccionando, componiendo y refinando operaciones de 12 tipos lógicos de alto nivel para sintetizar un par de preguntas y respuestas (QA) verificable. Esta evolución desde una guía de alto nivel hasta operaciones concretas nos permitió producir de manera escalable WebAggregatorQA, un conjunto de datos de 10K muestras en 50K sitios web y 11 dominios. Basándonos en un marco de agente de código abierto, SmolAgents, recopilamos trayectorias de ajuste fino supervisado para desarrollar una serie de modelos fundamentales, WebAggregator. WebAggregator-8B iguala el rendimiento de GPT-4.1, mientras que la variante de 32B supera a GPT-4.1 en más de un 10% en GAIA-text y se acerca mucho a Claude-3.7-sonnet. Además, dada la disponibilidad limitada de puntos de referencia que evalúan las capacidades de agregación de información de los agentes web, construimos una división de evaluación anotada manualmente de WebAggregatorQA como un conjunto de pruebas desafiante. En este punto de referencia, Claude-3.7-sonnet solo alcanza un 28%, y GPT-4.1 obtiene un 25.8%. Incluso cuando los agentes logran recuperar todas las referencias, todavía tienen dificultades en WebAggregatorQA, lo que destaca la necesidad de fortalecer las capacidades de agregación de información de los fundamentos de los agentes web.

English

Deep research web agents not only retrieve information from diverse sources such as web environments, files, and multimodal inputs, but more importantly, they need to rigorously analyze and aggregate knowledge for insightful research. However, existing open-source deep research agents predominantly focus on enhancing information-seeking capabilities of web agents to locate specific information, while overlooking the essential need for information aggregation, which would limit their ability to support in-depth research. We propose an Explore to Evolve paradigm to scalably construct verifiable training data for web agents. Begins with proactive online exploration, an agent sources grounded information by exploring the real web. Using the collected evidence, the agent then self-evolves an aggregation program by selecting, composing, and refining operations from 12 high-level logical types to synthesize a verifiable QA pair. This evolution from high-level guidance to concrete operations allowed us to scalably produce WebAggregatorQA, a dataset of 10K samples across 50K websites and 11 domains. Based on an open-source agent framework, SmolAgents, we collect supervised fine-tuning trajectories to develop a series of foundation models, WebAggregator. WebAggregator-8B matches the performance of GPT-4.1, while the 32B variant surpasses GPT-4.1 by more than 10% on GAIA-text and closely approaches Claude-3.7-sonnet. Moreover, given the limited availability of benchmarks that evaluate web agents' information aggregation abilities, we construct a human-annotated evaluation split of WebAggregatorQA as a challenging test set. On this benchmark, Claude-3.7-sonnet only achieves 28%, and GPT-4.1 scores 25.8%. Even when agents manage to retrieve all references, they still struggle on WebAggregatorQA, highlighting the need to strengthen the information aggregation capabilities of web agent foundations.

Explorar para Evolucionar: Escalando la Lógica de Agregación Evolucionada mediante Exploración Proactiva en Línea para Agentes de Investigación Profunda

Explore to Evolve: Scaling Evolved Aggregation Logic via Proactive Online Exploration for Deep Research Agents

Resumen

Support