ChatPaper.aiChatPaper

WebExplorer: Verken en Ontwikkel voor het Trainen van Webagentschappen met Lange Tijdshorizon

WebExplorer: Explore and Evolve for Training Long-Horizon Web Agents

September 8, 2025
Auteurs: Junteng Liu, Yunji Li, Chi Zhang, Jingyang Li, Aili Chen, Ke Ji, Weiyu Cheng, Zijia Wu, Chengyu Du, Qidi Xu, Jiayuan Song, Zhengmao Zhu, Wenhu Chen, Pengyu Zhao, Junxian He
cs.AI

Samenvatting

Het paradigma van Large Language Models (LLMs) is steeds meer verschoven naar agentische toepassingen, waarbij webbrowsingmogelijkheden essentieel zijn voor het ophalen van informatie uit diverse online bronnen. Bestaande open-source webagents tonen echter beperkte informatiezoekvaardigheden bij complexe taken of hebben geen transparante implementaties. In dit werk identificeren we dat de belangrijkste uitdaging ligt in de schaarste van uitdagende data voor informatiezoeken. Om deze beperking aan te pakken, introduceren we WebExplorer: een systematische data-generatiebenadering die gebruikmaakt van modelgebaseerde exploratie en iteratieve, lange-naar-korte query-evolutie. Deze methode creëert uitdagende query-antwoordparen die multi-stap redeneren en complexe webnavigatie vereisen. Door gebruik te maken van onze samengestelde dataset van hoge kwaliteit, ontwikkelen we met succes het geavanceerde webagent WebExplorer-8B via supervised fine-tuning gevolgd door reinforcement learning. Ons model ondersteunt een contextlengte van 128K en tot 100 toolaanroepbeurten, waardoor langetermijnprobleemoplossing mogelijk wordt. Op diverse informatiezoekbenchmarks behaalt WebExplorer-8B de state-of-the-art prestaties op zijn schaal. Opmerkelijk is dat WebExplorer-8B, als een model van 8B grootte, effectief kan zoeken over een gemiddelde van 16 beurten na RL-training, wat een hogere nauwkeurigheid oplevert dan WebSailor-72B op BrowseComp-en/zh en de beste prestaties behaalt onder modellen tot 100B parameters op WebWalkerQA en FRAMES. Naast deze informatiezoektaken bereikt ons model ook sterke generalisatie op de HLE-benchmark, ondanks dat het alleen getraind is op kennisintensieve QA-data. Deze resultaten benadrukken onze benadering als een praktische weg naar langetermijn webagents.
English
The paradigm of Large Language Models (LLMs) has increasingly shifted toward agentic applications, where web browsing capabilities are fundamental for retrieving information from diverse online sources. However, existing open-source web agents either demonstrate limited information-seeking abilities on complex tasks or lack transparent implementations. In this work, we identify that the key challenge lies in the scarcity of challenging data for information seeking. To address this limitation, we introduce WebExplorer: a systematic data generation approach using model-based exploration and iterative, long-to-short query evolution. This method creates challenging query-answer pairs that require multi-step reasoning and complex web navigation. By leveraging our curated high-quality dataset, we successfully develop advanced web agent WebExplorer-8B through supervised fine-tuning followed by reinforcement learning. Our model supports 128K context length and up to 100 tool calling turns, enabling long-horizon problem solving. Across diverse information-seeking benchmarks, WebExplorer-8B achieves the state-of-the-art performance at its scale. Notably, as an 8B-sized model, WebExplorer-8B is able to effectively search over an average of 16 turns after RL training, achieving higher accuracy than WebSailor-72B on BrowseComp-en/zh and attaining the best performance among models up to 100B parameters on WebWalkerQA and FRAMES. Beyond these information-seeking tasks, our model also achieves strong generalization on the HLE benchmark even though it is only trained on knowledge-intensive QA data. These results highlight our approach as a practical path toward long-horizon web agents.
PDF783September 9, 2025