ChatPaper.aiChatPaper

WebExplorer: Explorar y Evolucionar para Entrenar Agentes Web de Largo Horizonte

WebExplorer: Explore and Evolve for Training Long-Horizon Web Agents

September 8, 2025
Autores: Junteng Liu, Yunji Li, Chi Zhang, Jingyang Li, Aili Chen, Ke Ji, Weiyu Cheng, Zijia Wu, Chengyu Du, Qidi Xu, Jiayuan Song, Zhengmao Zhu, Wenhu Chen, Pengyu Zhao, Junxian He
cs.AI

Resumen

El paradigma de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) ha evolucionado cada vez más hacia aplicaciones agentivas, donde las capacidades de navegación web son fundamentales para recuperar información de diversas fuentes en línea. Sin embargo, los agentes web de código abierto existentes demuestran habilidades limitadas para la búsqueda de información en tareas complejas o carecen de implementaciones transparentes. En este trabajo, identificamos que el principal desafío radica en la escasez de datos desafiantes para la búsqueda de información. Para abordar esta limitación, presentamos WebExplorer: un enfoque sistemático de generación de datos que utiliza exploración basada en modelos y evolución iterativa de consultas de largo a corto. Este método crea pares de consulta-respuesta desafiantes que requieren razonamiento de múltiples pasos y navegación web compleja. Al aprovechar nuestro conjunto de datos de alta calidad, desarrollamos con éxito el agente web avanzado WebExplorer-8B mediante ajuste fino supervisado seguido de aprendizaje por refuerzo. Nuestro modelo admite una longitud de contexto de 128K y hasta 100 turnos de llamadas a herramientas, lo que permite la resolución de problemas de largo alcance. En diversos puntos de referencia de búsqueda de información, WebExplorer-8B logra un rendimiento de vanguardia en su escala. Notablemente, como un modelo de 8B, WebExplorer-8B es capaz de buscar efectivamente en un promedio de 16 turnos después del entrenamiento por refuerzo, alcanzando una mayor precisión que WebSailor-72B en BrowseComp-en/zh y obteniendo el mejor rendimiento entre modelos de hasta 100B parámetros en WebWalkerQA y FRAMES. Más allá de estas tareas de búsqueda de información, nuestro modelo también logra una fuerte generalización en el punto de referencia HLE, a pesar de estar entrenado únicamente en datos de preguntas y respuestas intensivas en conocimiento. Estos resultados destacan nuestro enfoque como una vía práctica hacia agentes web de largo alcance.
English
The paradigm of Large Language Models (LLMs) has increasingly shifted toward agentic applications, where web browsing capabilities are fundamental for retrieving information from diverse online sources. However, existing open-source web agents either demonstrate limited information-seeking abilities on complex tasks or lack transparent implementations. In this work, we identify that the key challenge lies in the scarcity of challenging data for information seeking. To address this limitation, we introduce WebExplorer: a systematic data generation approach using model-based exploration and iterative, long-to-short query evolution. This method creates challenging query-answer pairs that require multi-step reasoning and complex web navigation. By leveraging our curated high-quality dataset, we successfully develop advanced web agent WebExplorer-8B through supervised fine-tuning followed by reinforcement learning. Our model supports 128K context length and up to 100 tool calling turns, enabling long-horizon problem solving. Across diverse information-seeking benchmarks, WebExplorer-8B achieves the state-of-the-art performance at its scale. Notably, as an 8B-sized model, WebExplorer-8B is able to effectively search over an average of 16 turns after RL training, achieving higher accuracy than WebSailor-72B on BrowseComp-en/zh and attaining the best performance among models up to 100B parameters on WebWalkerQA and FRAMES. Beyond these information-seeking tasks, our model also achieves strong generalization on the HLE benchmark even though it is only trained on knowledge-intensive QA data. These results highlight our approach as a practical path toward long-horizon web agents.
PDF733September 9, 2025