ChatPaper.aiChatPaper

WebExplorer : Exploration et évolution pour l'entraînement d'agents web à long horizon

WebExplorer: Explore and Evolve for Training Long-Horizon Web Agents

September 8, 2025
papers.authors: Junteng Liu, Yunji Li, Chi Zhang, Jingyang Li, Aili Chen, Ke Ji, Weiyu Cheng, Zijia Wu, Chengyu Du, Qidi Xu, Jiayuan Song, Zhengmao Zhu, Wenhu Chen, Pengyu Zhao, Junxian He
cs.AI

papers.abstract

Le paradigme des modèles de langage à grande échelle (LLMs) s'oriente de plus en plus vers des applications agentiques, où les capacités de navigation sur le web sont essentielles pour extraire des informations de diverses sources en ligne. Cependant, les agents web open-source existants présentent soit des capacités limitées de recherche d'informations pour des tâches complexes, soit un manque de transparence dans leurs implémentations. Dans ce travail, nous identifions que le défi principal réside dans la rareté de données complexes pour la recherche d'informations. Pour pallier cette limitation, nous introduisons WebExplorer : une approche systématique de génération de données basée sur l'exploration par modèle et l'évolution itérative de requêtes longues à courtes. Cette méthode crée des paires requête-réponse complexes nécessitant un raisonnement en plusieurs étapes et une navigation web élaborée. En exploitant notre ensemble de données de haute qualité, nous développons avec succès l'agent web avancé WebExplorer-8B grâce à un affinage supervisé suivi d'un apprentissage par renforcement. Notre modèle supporte une longueur de contexte de 128K et jusqu'à 100 appels d'outils, permettant ainsi la résolution de problèmes à long terme. Sur divers benchmarks de recherche d'informations, WebExplorer-8B atteint des performances de pointe à son échelle. Notamment, en tant que modèle de 8B de paramètres, WebExplorer-8B est capable de rechercher efficacement sur une moyenne de 16 tours après l'entraînement par renforcement, obtenant une précision supérieure à WebSailor-72B sur BrowseComp-en/zh et atteignant les meilleures performances parmi les modèles jusqu'à 100B de paramètres sur WebWalkerQA et FRAMES. Au-delà de ces tâches de recherche d'informations, notre modèle démontre également une forte généralisation sur le benchmark HLE, bien qu'il ne soit entraîné que sur des données de questions-réponses intensives en connaissances. Ces résultats soulignent notre approche comme une voie pratique vers des agents web à long terme.
English
The paradigm of Large Language Models (LLMs) has increasingly shifted toward agentic applications, where web browsing capabilities are fundamental for retrieving information from diverse online sources. However, existing open-source web agents either demonstrate limited information-seeking abilities on complex tasks or lack transparent implementations. In this work, we identify that the key challenge lies in the scarcity of challenging data for information seeking. To address this limitation, we introduce WebExplorer: a systematic data generation approach using model-based exploration and iterative, long-to-short query evolution. This method creates challenging query-answer pairs that require multi-step reasoning and complex web navigation. By leveraging our curated high-quality dataset, we successfully develop advanced web agent WebExplorer-8B through supervised fine-tuning followed by reinforcement learning. Our model supports 128K context length and up to 100 tool calling turns, enabling long-horizon problem solving. Across diverse information-seeking benchmarks, WebExplorer-8B achieves the state-of-the-art performance at its scale. Notably, as an 8B-sized model, WebExplorer-8B is able to effectively search over an average of 16 turns after RL training, achieving higher accuracy than WebSailor-72B on BrowseComp-en/zh and attaining the best performance among models up to 100B parameters on WebWalkerQA and FRAMES. Beyond these information-seeking tasks, our model also achieves strong generalization on the HLE benchmark even though it is only trained on knowledge-intensive QA data. These results highlight our approach as a practical path toward long-horizon web agents.
PDF733September 9, 2025