WebExplorer: Erforschung und Weiterentwicklung zur Schulung von Web-Agenten mit langfristigen Zielen
WebExplorer: Explore and Evolve for Training Long-Horizon Web Agents
September 8, 2025
papers.authors: Junteng Liu, Yunji Li, Chi Zhang, Jingyang Li, Aili Chen, Ke Ji, Weiyu Cheng, Zijia Wu, Chengyu Du, Qidi Xu, Jiayuan Song, Zhengmao Zhu, Wenhu Chen, Pengyu Zhao, Junxian He
cs.AI
papers.abstract
Das Paradigma der Large Language Models (LLMs) hat sich zunehmend in Richtung agentenbasierter Anwendungen verschoben, bei denen Webbrowsing-Fähigkeiten grundlegend sind, um Informationen aus verschiedenen Online-Quellen abzurufen. Allerdings zeigen bestehende Open-Source-Webagenten entweder begrenzte Fähigkeiten zur Informationssuche bei komplexen Aufgaben oder es fehlen transparente Implementierungen. In dieser Arbeit identifizieren wir, dass die zentrale Herausforderung in der Knappheit anspruchsvoller Daten für die Informationssuche liegt. Um diese Einschränkung zu überwinden, führen wir WebExplorer ein: einen systematischen Ansatz zur Datengenerierung, der modellbasierte Exploration und iterative, lang-zu-kurz Abfrageevolution nutzt. Diese Methode erzeugt anspruchsvolle Abfrage-Antwort-Paare, die mehrstufiges Denken und komplexe Webnavigation erfordern. Durch die Nutzung unseres kuratierten, hochwertigen Datensatzes entwickeln wir erfolgreich den fortschrittlichen Webagenten WebExplorer-8B durch überwachtes Fein-Tuning gefolgt von Reinforcement Learning. Unser Modell unterstützt eine Kontextlänge von 128K und bis zu 100 Tool-Aufrufe, was die Lösung langfristiger Probleme ermöglicht. In verschiedenen Benchmarks zur Informationssuche erreicht WebExplorer-8B die beste Leistung in seiner Größenordnung. Bemerkenswerterweise ist WebExplorer-8B als Modell mit 8B Parametern in der Lage, nach dem RL-Training effektiv über durchschnittlich 16 Schritte zu suchen und dabei eine höhere Genauigkeit als WebSailor-72B auf BrowseComp-en/zh zu erzielen sowie die beste Leistung unter Modellen mit bis zu 100B Parametern auf WebWalkerQA und FRAMES zu erreichen. Über diese Informationssuchaufgaben hinaus zeigt unser Modell auch eine starke Generalisierung auf dem HLE-Benchmark, obwohl es nur auf wissensintensive QA-Daten trainiert wurde. Diese Ergebnisse unterstreichen unseren Ansatz als praktischen Weg hin zu langfristigen Webagenten.
English
The paradigm of Large Language Models (LLMs) has increasingly shifted toward
agentic applications, where web browsing capabilities are fundamental for
retrieving information from diverse online sources. However, existing
open-source web agents either demonstrate limited information-seeking abilities
on complex tasks or lack transparent implementations. In this work, we identify
that the key challenge lies in the scarcity of challenging data for information
seeking. To address this limitation, we introduce WebExplorer: a systematic
data generation approach using model-based exploration and iterative,
long-to-short query evolution. This method creates challenging query-answer
pairs that require multi-step reasoning and complex web navigation. By
leveraging our curated high-quality dataset, we successfully develop advanced
web agent WebExplorer-8B through supervised fine-tuning followed by
reinforcement learning. Our model supports 128K context length and up to 100
tool calling turns, enabling long-horizon problem solving. Across diverse
information-seeking benchmarks, WebExplorer-8B achieves the state-of-the-art
performance at its scale. Notably, as an 8B-sized model, WebExplorer-8B is able
to effectively search over an average of 16 turns after RL training, achieving
higher accuracy than WebSailor-72B on BrowseComp-en/zh and attaining the best
performance among models up to 100B parameters on WebWalkerQA and FRAMES.
Beyond these information-seeking tasks, our model also achieves strong
generalization on the HLE benchmark even though it is only trained on
knowledge-intensive QA data. These results highlight our approach as a
practical path toward long-horizon web agents.