OpenSeeker: Het Democratiseren van Frontier-Zoekagentschappen door Volledig Open-Source Trainingsdata

Samenvatting

Diepgaande zoekcapaciteiten zijn een onmisbare competentie geworden voor geavanceerde Large Language Model (LLM)-agenten, maar de ontwikkeling van hoogwaardige zoekagenten wordt nog steeds gedomineerd door industriële giganten vanwege een gebrek aan transparante, hoogwaardige trainingsdata. Deze aanhoudende dataschaarste heeft de vooruitgang van de bredere onderzoeksgemeenschap fundamenteel belemmerd bij het ontwikkelen en innoveren op dit gebied. Om deze kloof te overbruggen, introduceren we OpenSeeker, de eerste volledig open-source zoekagent (d.w.z. model en data) die prestaties op topniveau bereikt door twee technische innovaties: (1) Feitgebaseerde schaalbare beheerbare QA-synthese, die de webgrafiek reverse-engineert via topologische expansie en entiteitsvervaging om complexe, multi-hop redeneertaken te genereren met beheerbare dekking en complexiteit. (2) Gedenoiseerde traject synthese, die een retrospectief samenvattingsmechanisme gebruikt om het traject te denoiseren, waardoor teacher-LLM's worden gestimuleerd om hoogwaardige acties te genereren. Experimentele resultaten tonen aan dat OpenSeeker, getraind (in één enkele trainingsrun) op slechts 11.7k gesynthetiseerde samples, state-of-the-art prestaties behaalt op meerdere benchmarks, waaronder BrowseComp, BrowseComp-ZH, xbench-DeepSearch en WideSearch. Opmerkelijk is dat OpenSeeker, getraind met eenvoudige SFT, de op een na beste volledig open-source agent DeepDive significant overtreft (bijv. 29.5% vs. 15.3% op BrowseComp), en zelfs industriële concurrenten zoals Tongyi DeepResearch (getraind via uitgebreide continue pre-training, SFT en RL) overstijgt op BrowseComp-ZH (48.4% vs. 46.7%). We stellen de complete trainingsdataset en de modelgewichten volledig open-source om onderzoek naar geavanceerde zoekagenten te democratiseren en een transparanter, collaboratiever ecosysteem te bevorderen.

English

Deep search capabilities have become an indispensable competency for frontier Large Language Model (LLM) agents, yet the development of high-performance search agents remains dominated by industrial giants due to a lack of transparent, high-quality training data. This persistent data scarcity has fundamentally hindered the progress of the broader research community in developing and innovating within this domain. To bridge this gap, we introduce OpenSeeker, the first fully open-source search agent (i.e., model and data) that achieves frontier-level performance through two core technical innovations: (1) Fact-grounded scalable controllable QA synthesis, which reverse-engineers the web graph via topological expansion and entity obfuscation to generate complex, multi-hop reasoning tasks with controllable coverage and complexity. (2) Denoised trajectory synthesis, which employs a retrospective summarization mechanism to denoise the trajectory, therefore promoting the teacher LLMs to generate high-quality actions. Experimental results demonstrate that OpenSeeker, trained (a single training run) on only 11.7k synthesized samples, achieves state-of-the-art performance across multiple benchmarks including BrowseComp, BrowseComp-ZH, xbench-DeepSearch, and WideSearch. Notably, trained with simple SFT, OpenSeeker significantly outperforms the second-best fully open-source agent DeepDive (e.g., 29.5% v.s. 15.3% on BrowseComp), and even surpasses industrial competitors such as Tongyi DeepResearch (trained via extensive continual pre-training, SFT, and RL) on BrowseComp-ZH (48.4% v.s. 46.7%). We fully open-source the complete training dataset and the model weights to democratize frontier search agent research and foster a more transparent, collaborative ecosystem.

OpenSeeker: Het Democratiseren van Frontier-Zoekagentschappen door Volledig Open-Source Trainingsdata

OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data

Samenvatting

Support