ChatPaper.aiChatPaper

OpenSeeker : Démocratiser les agents de recherche de pointe par l'ouverture complète des données d'entraînement

OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data

March 16, 2026
Auteurs: Yuwen Du, Rui Ye, Shuo Tang, Xinyu Zhu, Yijun Lu, Yuzhu Cai, Siheng Chen
cs.AI

Résumé

Les capacités de recherche approfondie sont devenues une compétence indispensable pour les agents de modèles de langage (LLM) de pointe, mais le développement d'agents de recherche performants reste dominé par les géants industriels en raison d'un manque de données d'entraînement transparentes et de haute qualité. Cette pénurie persistante de données a fondamentalement entravé les progrès de la communauté scientifique élargie dans le développement et l'innovation dans ce domaine. Pour combler cette lacune, nous présentons OpenSeeker, le premier agent de recherche entièrement open-source (c'est-à-dire le modèle et les données) qui atteint des performances de pointe grâce à deux innovations techniques fondamentales : (1) La synthèse évolutive et contrôlable de questions-réponses ancrée sur les faits, qui rétro-conçoit le graphe web via une expansion topologique et un masquage d'entités pour générer des tâches de raisonnement complexes à sauts multiples avec une couverture et une complexité contrôlables. (2) La synthèse de trajectoires débruitée, qui utilise un mécanisme de sommaire rétrospectif pour débruiter la trajectoire, favorisant ainsi la génération d'actions de haute qualité par les LLMs enseignants. Les résultats expérimentaux démontrent qu'OpenSeeker, entraîné (en un seul cycle d'entraînement) sur seulement 11 700 échantillons synthétisés, atteint des performances de pointe sur plusieurs benchmarks incluant BrowseComp, BrowseComp-ZH, xbench-DeepSearch et WideSearch. Notamment, avec un simple entraînement par fine-tuning supervisé (SFT), OpenSeeker surpasse significativement le deuxième meilleur agent entièrement open-source DeepDive (par exemple, 29,5 % contre 15,3 % sur BrowseComp), et dépasse même des concurrents industriels comme Tongyi DeepResearch (entraîné via un pré-entraînement continu extensif, du SFT et de l'apprentissage par renforcement) sur BrowseComp-ZH (48,4 % contre 46,7 %). Nous ouvrons entièrement en open-source l'ensemble complet des données d'entraînement et les poids du modèle pour démocratiser la recherche sur les agents de recherche de pointe et favoriser un écosystème plus transparent et collaboratif.
English
Deep search capabilities have become an indispensable competency for frontier Large Language Model (LLM) agents, yet the development of high-performance search agents remains dominated by industrial giants due to a lack of transparent, high-quality training data. This persistent data scarcity has fundamentally hindered the progress of the broader research community in developing and innovating within this domain. To bridge this gap, we introduce OpenSeeker, the first fully open-source search agent (i.e., model and data) that achieves frontier-level performance through two core technical innovations: (1) Fact-grounded scalable controllable QA synthesis, which reverse-engineers the web graph via topological expansion and entity obfuscation to generate complex, multi-hop reasoning tasks with controllable coverage and complexity. (2) Denoised trajectory synthesis, which employs a retrospective summarization mechanism to denoise the trajectory, therefore promoting the teacher LLMs to generate high-quality actions. Experimental results demonstrate that OpenSeeker, trained (a single training run) on only 11.7k synthesized samples, achieves state-of-the-art performance across multiple benchmarks including BrowseComp, BrowseComp-ZH, xbench-DeepSearch, and WideSearch. Notably, trained with simple SFT, OpenSeeker significantly outperforms the second-best fully open-source agent DeepDive (e.g., 29.5% v.s. 15.3% on BrowseComp), and even surpasses industrial competitors such as Tongyi DeepResearch (trained via extensive continual pre-training, SFT, and RL) on BrowseComp-ZH (48.4% v.s. 46.7%). We fully open-source the complete training dataset and the model weights to democratize frontier search agent research and foster a more transparent, collaborative ecosystem.
PDF1336March 18, 2026