ChatPaper.aiChatPaper

WebExplorer: Explorar e Evoluir para o Treinamento de Agentes Web de Longo Horizonte

WebExplorer: Explore and Evolve for Training Long-Horizon Web Agents

September 8, 2025
Autores: Junteng Liu, Yunji Li, Chi Zhang, Jingyang Li, Aili Chen, Ke Ji, Weiyu Cheng, Zijia Wu, Chengyu Du, Qidi Xu, Jiayuan Song, Zhengmao Zhu, Wenhu Chen, Pengyu Zhao, Junxian He
cs.AI

Resumo

O paradigma dos Modelos de Linguagem de Grande Escala (LLMs) tem se deslocado cada vez mais para aplicações agentes, onde capacidades de navegação na web são fundamentais para recuperar informações de diversas fontes online. No entanto, os agentes web de código aberto existentes ou demonstram habilidades limitadas de busca de informações em tarefas complexas ou carecem de implementações transparentes. Neste trabalho, identificamos que o principal desafio reside na escassez de dados desafiadores para a busca de informações. Para superar essa limitação, introduzimos o WebExplorer: uma abordagem sistemática de geração de dados que utiliza exploração baseada em modelos e evolução iterativa de consultas de longo para curto prazo. Esse método cria pares de consulta-resposta desafiadores que exigem raciocínio em múltiplos passos e navegação web complexa. Ao aproveitar nosso conjunto de dados de alta qualidade, desenvolvemos com sucesso o agente web avançado WebExplorer-8B por meio de ajuste fino supervisionado seguido de aprendizado por reforço. Nosso modelo suporta um contexto de 128K e até 100 chamadas de ferramentas, permitindo a resolução de problemas de longo horizonte. Em diversos benchmarks de busca de informações, o WebExplorer-8B alcança o estado da arte em sua escala. Notavelmente, como um modelo de 8B de parâmetros, o WebExplorer-8B é capaz de efetivamente realizar buscas em uma média de 16 turnos após o treinamento por reforço, obtendo maior precisão que o WebSailor-72B no BrowseComp-en/zh e alcançando o melhor desempenho entre modelos de até 100B de parâmetros no WebWalkerQA e FRAMES. Além dessas tarefas de busca de informações, nosso modelo também demonstra forte generalização no benchmark HLE, apesar de ter sido treinado apenas em dados de QA intensivos em conhecimento. Esses resultados destacam nossa abordagem como um caminho prático para o desenvolvimento de agentes web de longo horizonte.
English
The paradigm of Large Language Models (LLMs) has increasingly shifted toward agentic applications, where web browsing capabilities are fundamental for retrieving information from diverse online sources. However, existing open-source web agents either demonstrate limited information-seeking abilities on complex tasks or lack transparent implementations. In this work, we identify that the key challenge lies in the scarcity of challenging data for information seeking. To address this limitation, we introduce WebExplorer: a systematic data generation approach using model-based exploration and iterative, long-to-short query evolution. This method creates challenging query-answer pairs that require multi-step reasoning and complex web navigation. By leveraging our curated high-quality dataset, we successfully develop advanced web agent WebExplorer-8B through supervised fine-tuning followed by reinforcement learning. Our model supports 128K context length and up to 100 tool calling turns, enabling long-horizon problem solving. Across diverse information-seeking benchmarks, WebExplorer-8B achieves the state-of-the-art performance at its scale. Notably, as an 8B-sized model, WebExplorer-8B is able to effectively search over an average of 16 turns after RL training, achieving higher accuracy than WebSailor-72B on BrowseComp-en/zh and attaining the best performance among models up to 100B parameters on WebWalkerQA and FRAMES. Beyond these information-seeking tasks, our model also achieves strong generalization on the HLE benchmark even though it is only trained on knowledge-intensive QA data. These results highlight our approach as a practical path toward long-horizon web agents.
PDF753September 9, 2025