WebExplorer: Esplorare ed Evolvere per Addestrare Agenti Web a Lungo Termine

Abstract

Il paradigma dei Large Language Models (LLM) si è sempre più orientato verso applicazioni agentiche, in cui le capacità di navigazione web sono fondamentali per recuperare informazioni da diverse fonti online. Tuttavia, gli agenti web open-source esistenti dimostrano capacità limitate di ricerca di informazioni su compiti complessi o mancano di implementazioni trasparenti. In questo lavoro, identifichiamo che la sfida principale risiede nella scarsità di dati complessi per la ricerca di informazioni. Per affrontare questa limitazione, introduciamo WebExplorer: un approccio sistematico alla generazione di dati basato sull'esplorazione guidata da modelli e sull'evoluzione iterativa di query da lunghe a brevi. Questo metodo crea coppie query-risposta complesse che richiedono ragionamenti multi-step e una navigazione web articolata. Sfruttando il nostro dataset di alta qualità curato, sviluppiamo con successo l'agente web avanzato WebExplorer-8B attraverso un fine-tuning supervisionato seguito da apprendimento per rinforzo. Il nostro modello supporta una lunghezza contestuale di 128K e fino a 100 chiamate di strumenti, abilitando la risoluzione di problemi a lungo termine. Su diversi benchmark di ricerca di informazioni, WebExplorer-8B raggiunge prestazioni all'avanguardia per la sua scala. In particolare, come modello di dimensioni 8B, WebExplorer-8B è in grado di effettuare ricerche efficaci in media su 16 turni dopo l'addestramento RL, ottenendo una maggiore accuratezza rispetto a WebSailor-72B su BrowseComp-en/zh e raggiungendo le migliori prestazioni tra i modelli fino a 100B parametri su WebWalkerQA e FRAMES. Oltre a questi compiti di ricerca di informazioni, il nostro modello dimostra anche una forte generalizzazione sul benchmark HLE nonostante sia addestrato solo su dati QA ad alta intensità di conoscenza. Questi risultati evidenziano il nostro approccio come un percorso pratico verso agenti web a lungo termine.

English

The paradigm of Large Language Models (LLMs) has increasingly shifted toward agentic applications, where web browsing capabilities are fundamental for retrieving information from diverse online sources. However, existing open-source web agents either demonstrate limited information-seeking abilities on complex tasks or lack transparent implementations. In this work, we identify that the key challenge lies in the scarcity of challenging data for information seeking. To address this limitation, we introduce WebExplorer: a systematic data generation approach using model-based exploration and iterative, long-to-short query evolution. This method creates challenging query-answer pairs that require multi-step reasoning and complex web navigation. By leveraging our curated high-quality dataset, we successfully develop advanced web agent WebExplorer-8B through supervised fine-tuning followed by reinforcement learning. Our model supports 128K context length and up to 100 tool calling turns, enabling long-horizon problem solving. Across diverse information-seeking benchmarks, WebExplorer-8B achieves the state-of-the-art performance at its scale. Notably, as an 8B-sized model, WebExplorer-8B is able to effectively search over an average of 16 turns after RL training, achieving higher accuracy than WebSailor-72B on BrowseComp-en/zh and attaining the best performance among models up to 100B parameters on WebWalkerQA and FRAMES. Beyond these information-seeking tasks, our model also achieves strong generalization on the HLE benchmark even though it is only trained on knowledge-intensive QA data. These results highlight our approach as a practical path toward long-horizon web agents.

WebExplorer: Esplorare ed Evolvere per Addestrare Agenti Web a Lungo Termine

WebExplorer: Explore and Evolve for Training Long-Horizon Web Agents

Abstract

Support