OpenSeeker: Demokratisierung von Frontier-Suchagenten durch vollständig offene Trainingsdaten

Zusammenfassung

Tiefgreifende Suchfähigkeiten sind zu einer unverzichtbaren Kompetenz für fortschrittliche Large Language Model (LLM)-Agenten geworden. Dennoch wird die Entwicklung hochleistungsfähiger Suchagenten aufgrund fehlender transparenter, hochwertiger Trainingsdaten weiterhin von Industriegiganten dominiert. Diese anhaltende Datenknappheit hat den Fortschritt der breiten Forschungsgemeinde bei der Entwicklung und Innovation in diesem Bereich grundlegend behindert. Um diese Lücke zu schließen, stellen wir OpenSeeker vor, den ersten vollständig quelloffenen Suchagenten (d.h. Modell und Daten), der durch zwei zentrale technische Innovationen Spitzenleistungen erzielt: (1) Faktenbasierte, skalierbare, steuerbare QA-Synthese, die den Web-Graphen durch topologische Expansion und Entitätsverschleierung reverse-engineering betreibt, um komplexe, multi-hop Reasoning-Aufgaben mit kontrollierbarer Abdeckung und Komplexität zu generieren. (2) Denoisierte Trajektoriensynthese, die einen retrospektiven Zusammenfassungsmechanismus zur Rauschunterdrückung der Trajektorie einsetzt und so die Lehrer-LLMs dazu anregt, hochwertige Aktionen zu generieren. Experimentelle Ergebnisse zeigen, dass OpenSeeker, trainiert (ein einziger Trainingslauf) mit nur 11.700 synthetisierten Stichproben, state-of-the-art Leistungen in mehreren Benchmarks erreicht, darunter BrowseComp, BrowseComp-ZH, xbench-DeepSearch und WideSearch. Bemerkenswerterweise übertrifft OpenSeeker, trainiert mit einfachem SFT, den zweitbesten vollständig quelloffenen Agenten DeepDive deutlich (z.B. 29,5 % zu 15,3 % bei BrowseComp) und übertrifft sogar industrielle Mitbewerber wie Tongyi DeepResearch (trainiert mittels umfangreichen kontinuierlichen Pre-Trainings, SFT und RL) bei BrowseComp-ZH (48,4 % zu 46,7 %). Wir stellen den vollständigen Trainingsdatensatz und die Modellgewichte vollständig quelloffen zur Verfügung, um die Forschung an Spitzen-Suchagenten zu demokratisieren und ein transparenteres, kooperativeres Ökosystem zu fördern.

English

Deep search capabilities have become an indispensable competency for frontier Large Language Model (LLM) agents, yet the development of high-performance search agents remains dominated by industrial giants due to a lack of transparent, high-quality training data. This persistent data scarcity has fundamentally hindered the progress of the broader research community in developing and innovating within this domain. To bridge this gap, we introduce OpenSeeker, the first fully open-source search agent (i.e., model and data) that achieves frontier-level performance through two core technical innovations: (1) Fact-grounded scalable controllable QA synthesis, which reverse-engineers the web graph via topological expansion and entity obfuscation to generate complex, multi-hop reasoning tasks with controllable coverage and complexity. (2) Denoised trajectory synthesis, which employs a retrospective summarization mechanism to denoise the trajectory, therefore promoting the teacher LLMs to generate high-quality actions. Experimental results demonstrate that OpenSeeker, trained (a single training run) on only 11.7k synthesized samples, achieves state-of-the-art performance across multiple benchmarks including BrowseComp, BrowseComp-ZH, xbench-DeepSearch, and WideSearch. Notably, trained with simple SFT, OpenSeeker significantly outperforms the second-best fully open-source agent DeepDive (e.g., 29.5% v.s. 15.3% on BrowseComp), and even surpasses industrial competitors such as Tongyi DeepResearch (trained via extensive continual pre-training, SFT, and RL) on BrowseComp-ZH (48.4% v.s. 46.7%). We fully open-source the complete training dataset and the model weights to democratize frontier search agent research and foster a more transparent, collaborative ecosystem.

OpenSeeker: Demokratisierung von Frontier-Suchagenten durch vollständig offene Trainingsdaten

OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data

Zusammenfassung

Support