OpenSeeker-v2 : Repousser les limites des agents de recherche grâce à des trajectoires informatives et de haute difficulté

Résumé

Les capacités de recherche approfondie sont devenues une compétence indispensable pour les agents de modèles de langage de grande taille (LLM) de pointe, mais leur développement reste dominé par les géants industriels. L'approche industrielle typique implique un pipeline extrêmement gourmand en ressources couvrant le pré-entraînement, le pré-entraînement continu (CPT), le réglage fin supervisé (SFT) et l'apprentissage par renforcement (RL). Dans ce rapport, nous démontrons qu'alimentée par des trajectoires informatives et à haute difficulté, une simple approche SFT peut s'avérer étonnamment puissante pour entraîner des agents de recherche de pointe. En introduisant trois modifications simples de synthèse des données : l'augmentation de la taille du graphe de connaissances pour une exploration plus riche, l'élargissement de la taille de l'ensemble d'outils pour une fonctionnalité étendue, et un filtrage strict par faible nombre d'étapes, nous établissons une base de référence plus solide. Entraîné sur seulement 10,6k points de données, notre OpenSeeker-v2 atteint des performances de pointe sur 4 benchmarks (agents de taille 30B avec le paradigme ReAct) : 46,0% sur BrowseComp, 58,1% sur BrowseComp-ZH, 34,6% sur Humanity's Last Exam et 78,0% sur xbench, surpassant même Tongyi DeepResearch entraîné avec le lourd pipeline CPT+SFT+RL, qui obtient respectivement 43,4%, 46,7%, 32,9% et 75,0%. Il est à noter qu'OpenSeeker-v2 représente le premier agent de recherche de pointe, dans son échelle de modèle et son paradigme, à être développé par une équipe purement académique utilisant uniquement le SFT. Nous sommes ravis d'ouvrir en open-source les poids du modèle OpenSeeker-v2 et de partager nos découvertes simples mais efficaces pour rendre la recherche sur les agents de recherche de pointe plus accessible à la communauté.

English

Deep search capabilities have become an indispensable competency for frontier Large Language Model (LLM) agents, yet their development remains dominated by industrial giants. The typical industry recipe involves a highly resource-intensive pipeline spanning pre-training, continual pre-training (CPT), supervised fine-tuning (SFT), and reinforcement learning (RL). In this report, we show that when fueled with informative and high-difficulty trajectories, a simple SFT approach could be surprisingly powerful for training frontier search agents. By introducing three simple data synthesis modifications: scaling knowledge graph size for richer exploration, expanding the tool set size for broader functionality, and strict low-step filtering, we establish a stronger baseline. Trained on merely 10.6k data points, our OpenSeeker-v2 achieves state-of-the-art performance across 4 benchmarks (30B-sized agents with ReAct paradigm): 46.0% on BrowseComp, 58.1% on BrowseComp-ZH, 34.6% on Humanity's Last Exam, and 78.0% on xbench, surpassing even Tongyi DeepResearch trained with heavy CPT+SFT+RL pipeline, which achieves 43.4%, 46.7%, 32.9%, and 75.0%, respectively. Notably, OpenSeeker-v2 represents the first state-of-the-art search agent within its model scale and paradigm to be developed by a purely academic team using only SFT. We are excited to open-source the OpenSeeker-v2 model weights and share our simple yet effective findings to make frontier search agent research more accessible to the community.

OpenSeeker-v2 : Repousser les limites des agents de recherche grâce à des trajectoires informatives et de haute difficulté

OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories

Résumé

Support