OpenResearcher: Una pipeline completamente aperta per la sintesi di traiettorie di ricerca approfondita a lungo termine

Abstract

L'addestramento di agenti di ricerca approfonditi richiede traiettorie a lungo termine che intercalano ricerca, aggregazione di evidenze e ragionamento a più fasi. Tuttavia, le pipeline esistenti per la raccolta di dati si basano tipicamente su API web proprietarie, rendendo la sintesi di traiettorie su larga scala costosa, instabile e difficile da riprodurre. Presentiamo OpenResearcher, una pipeline riproducibile che disaccoppia il bootstrap one-time del corpus dalla sintesi di traiettorie multi-turn ed esegue il ciclo di ricerca e navigazione interamente offline utilizzando tre primitive esplicite del browser: ricerca, apertura e trova, su un corpus di 15 milioni di documenti. Utilizzando GPT-OSS-120B come modello insegnante, sintetizziamo oltre 97.000 traiettorie, inclusa una coda sostanziale a lungo termine con oltre 100 chiamate a strumenti. Il fine-tuning supervisionato di un modello backbone 30B-A3B su queste traiettorie raggiunge un'accuratezza del 54,8% su BrowseComp-Plus, un miglioramento di +34,0 punti rispetto al modello base, mantenendo al contempo competitività su BrowseComp, GAIA e xbench-DeepSearch. Poiché l'ambiente è offline e completamente strumentato, esso consente anche analisi controllate; il nostro studio rivela insight pratici sulla progettazione di pipeline di ricerca approfondita, incluse strategie di filtraggio dei dati, scelte di configurazione dell'agente e come il successo del retrieval si relazioni all'accuratezza della risposta finale. Rilasciamo la pipeline, le traiettorie sintetizzate, i checkpoint del modello e l'ambiente di ricerca offline all'indirizzo https://github.com/TIGER-AI-Lab/OpenResearcher.

English

Training deep research agents requires long-horizon trajectories that interleave search, evidence aggregation, and multi-step reasoning. However, existing data collection pipelines typically rely on proprietary web APIs, making large-scale trajectory synthesis costly, unstable, and difficult to reproduce. We present OpenResearcher, a reproducible pipeline that decouples one-time corpus bootstrapping from multi-turn trajectory synthesis and executes the search-and-browse loop entirely offline using three explicit browser primitives: search, open, and find, over a 15M-document corpus. Using GPT-OSS-120B as the teacher model, we synthesize over 97K trajectories, including a substantial long-horizon tail with 100+ tool calls. Supervised fine-tuning a 30B-A3B backbone on these trajectories achieves 54.8\% accuracy on BrowseComp-Plus, a +34.0 point improvement over the base model, while remaining competitive on BrowseComp, GAIA, and xbench-DeepSearch. Because the environment is offline and fully instrumented, it also enables controlled analysis, where our study reveals practical insights into deep research pipeline design, including data filtering strategies, agent configuration choices, and how retrieval success relates to final answer accuracy. We release the pipeline, synthesized trajectories, model checkpoints, and the offline search environment at https://github.com/TIGER-AI-Lab/OpenResearcher.

OpenResearcher: Una pipeline completamente aperta per la sintesi di traiettorie di ricerca approfondita a lungo termine

OpenResearcher: A Fully Open Pipeline for Long-Horizon Deep Research Trajectory Synthesis

Abstract

Support