OpenSeeker: Democrazia degli Agenti di Ricerca all'Avanguardia attraverso la Piena Apertura dei Dati di Addestramento
OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data
March 16, 2026
Autori: Yuwen Du, Rui Ye, Shuo Tang, Xinyu Zhu, Yijun Lu, Yuzhu Cai, Siheng Chen
cs.AI
Abstract
Le capacità di ricerca approfondita sono diventate una competenza indispensabile per gli agenti avanzati di Large Language Model (LLM), tuttavia lo sviluppo di agenti di ricerca ad alte prestazioni rimane dominato dai colossi industriali a causa della mancanza di dati di addestramento trasparenti e di alta qualità. Questa persistente carenza di dati ha fondamentalmente ostacolato i progressi della più ampia comunità di ricerca nello sviluppo e nell'innovazione in questo ambito. Per colmare questa lacuna, presentiamo OpenSeeker, il primo agente di ricerca completamente open-source (cioè, modello e dati) che raggiunge prestazioni di livello avanzato grazie a due innovazioni tecniche fondamentali: (1) Sintesi scalabile e controllabile di QA (Question Answering) ancorata ai fatti, che reverse-engineera il grafo web tramite espansione topologica e offuscamento di entità per generare compiti complessi di ragionamento multi-hop con copertura e complessità controllabili. (2) Sintesi di traiettorie ripulita dal rumore, che utilizza un meccanismo di summarizzazione retrospettiva per eliminare il rumore dalla traiettoria, promuovendo così la generazione di azioni di alta qualità da parte degli LLM insegnanti. I risultati sperimentali dimostrano che OpenSeeker, addestrato (con una singola sessione di addestramento) su soli 11.7k campioni sintetizzati, raggiunge prestazioni all'avanguardia su molteplici benchmark, inclusi BrowseComp, BrowseComp-ZH, xbench-DeepSearch e WideSearch. È degno di nota che, addestrato con una semplice SFT (Supervised Fine-Tuning), OpenSeeker superi significativamente il secondo miglior agente completamente open-source, DeepDive (ad esempio, 29,5% contro 15,3% su BrowseComp), e superi persino concorrenti industriali come Tongyi DeepResearch (addestrato tramite esteso pre-addestramento continuo, SFT e RL) su BrowseComp-ZH (48,4% contro 46,7%). Rendi-amo completamente open-source l'intero dataset di addestramento e i pesi del modello per democratizzare la ricerca sugli agenti di ricerca avanzati e favorire un ecosistema più trasparente e collaborativo.
English
Deep search capabilities have become an indispensable competency for frontier Large Language Model (LLM) agents, yet the development of high-performance search agents remains dominated by industrial giants due to a lack of transparent, high-quality training data. This persistent data scarcity has fundamentally hindered the progress of the broader research community in developing and innovating within this domain. To bridge this gap, we introduce OpenSeeker, the first fully open-source search agent (i.e., model and data) that achieves frontier-level performance through two core technical innovations: (1) Fact-grounded scalable controllable QA synthesis, which reverse-engineers the web graph via topological expansion and entity obfuscation to generate complex, multi-hop reasoning tasks with controllable coverage and complexity. (2) Denoised trajectory synthesis, which employs a retrospective summarization mechanism to denoise the trajectory, therefore promoting the teacher LLMs to generate high-quality actions. Experimental results demonstrate that OpenSeeker, trained (a single training run) on only 11.7k synthesized samples, achieves state-of-the-art performance across multiple benchmarks including BrowseComp, BrowseComp-ZH, xbench-DeepSearch, and WideSearch. Notably, trained with simple SFT, OpenSeeker significantly outperforms the second-best fully open-source agent DeepDive (e.g., 29.5% v.s. 15.3% on BrowseComp), and even surpasses industrial competitors such as Tongyi DeepResearch (trained via extensive continual pre-training, SFT, and RL) on BrowseComp-ZH (48.4% v.s. 46.7%). We fully open-source the complete training dataset and the model weights to democratize frontier search agent research and foster a more transparent, collaborative ecosystem.