WebExplorer: Esplorare ed Evolvere per Addestrare Agenti Web a Lungo Termine
WebExplorer: Explore and Evolve for Training Long-Horizon Web Agents
September 8, 2025
Autori: Junteng Liu, Yunji Li, Chi Zhang, Jingyang Li, Aili Chen, Ke Ji, Weiyu Cheng, Zijia Wu, Chengyu Du, Qidi Xu, Jiayuan Song, Zhengmao Zhu, Wenhu Chen, Pengyu Zhao, Junxian He
cs.AI
Abstract
Il paradigma dei Large Language Models (LLM) si è sempre più orientato verso applicazioni agentiche, in cui le capacità di navigazione web sono fondamentali per recuperare informazioni da diverse fonti online. Tuttavia, gli agenti web open-source esistenti dimostrano capacità limitate di ricerca di informazioni su compiti complessi o mancano di implementazioni trasparenti. In questo lavoro, identifichiamo che la sfida principale risiede nella scarsità di dati complessi per la ricerca di informazioni. Per affrontare questa limitazione, introduciamo WebExplorer: un approccio sistematico alla generazione di dati basato sull'esplorazione guidata da modelli e sull'evoluzione iterativa di query da lunghe a brevi. Questo metodo crea coppie query-risposta complesse che richiedono ragionamenti multi-step e una navigazione web articolata. Sfruttando il nostro dataset di alta qualità curato, sviluppiamo con successo l'agente web avanzato WebExplorer-8B attraverso un fine-tuning supervisionato seguito da apprendimento per rinforzo. Il nostro modello supporta una lunghezza contestuale di 128K e fino a 100 chiamate di strumenti, abilitando la risoluzione di problemi a lungo termine. Su diversi benchmark di ricerca di informazioni, WebExplorer-8B raggiunge prestazioni all'avanguardia per la sua scala. In particolare, come modello di dimensioni 8B, WebExplorer-8B è in grado di effettuare ricerche efficaci in media su 16 turni dopo l'addestramento RL, ottenendo una maggiore accuratezza rispetto a WebSailor-72B su BrowseComp-en/zh e raggiungendo le migliori prestazioni tra i modelli fino a 100B parametri su WebWalkerQA e FRAMES. Oltre a questi compiti di ricerca di informazioni, il nostro modello dimostra anche una forte generalizzazione sul benchmark HLE nonostante sia addestrato solo su dati QA ad alta intensità di conoscenza. Questi risultati evidenziano il nostro approccio come un percorso pratico verso agenti web a lungo termine.
English
The paradigm of Large Language Models (LLMs) has increasingly shifted toward
agentic applications, where web browsing capabilities are fundamental for
retrieving information from diverse online sources. However, existing
open-source web agents either demonstrate limited information-seeking abilities
on complex tasks or lack transparent implementations. In this work, we identify
that the key challenge lies in the scarcity of challenging data for information
seeking. To address this limitation, we introduce WebExplorer: a systematic
data generation approach using model-based exploration and iterative,
long-to-short query evolution. This method creates challenging query-answer
pairs that require multi-step reasoning and complex web navigation. By
leveraging our curated high-quality dataset, we successfully develop advanced
web agent WebExplorer-8B through supervised fine-tuning followed by
reinforcement learning. Our model supports 128K context length and up to 100
tool calling turns, enabling long-horizon problem solving. Across diverse
information-seeking benchmarks, WebExplorer-8B achieves the state-of-the-art
performance at its scale. Notably, as an 8B-sized model, WebExplorer-8B is able
to effectively search over an average of 16 turns after RL training, achieving
higher accuracy than WebSailor-72B on BrowseComp-en/zh and attaining the best
performance among models up to 100B parameters on WebWalkerQA and FRAMES.
Beyond these information-seeking tasks, our model also achieves strong
generalization on the HLE benchmark even though it is only trained on
knowledge-intensive QA data. These results highlight our approach as a
practical path toward long-horizon web agents.