OpenSeeker-v2: Erweiterung der Grenzen von Suchagenten durch informative und anspruchsvolle Trajektorien

Zusammenfassung

Tiefgreifende Suchfähigkeiten sind zu einer unverzichtbaren Kompetenz für fortschrittliche Large Language Model (LLM)-Agenten geworden, doch ihre Entwicklung wird nach wie vor von Industriegiganten dominiert. Der typische Industriestandard umfasst einen äußerst ressourcenintensiven Prozess, der Pre-Training, kontinuierliches Pre-Training (CPT), supervised Fine-Tuning (SFT) und Reinforcement Learning (RL) umspannt. In diesem Bericht zeigen wir, dass ein einfacher SFT-Ansatz zur Ausbildung fortschrittlicher Suchagenten überraschend leistungsfähig sein kann, wenn er mit informativen und anspruchsvollen Trajektorien versorgt wird. Durch die Einführung von drei einfachen Modifikationen zur Datensynthese – Skalierung der Wissensgraphgröße für eine umfangreichere Exploration, Erweiterung des Werkzeugsatzes für breitere Funktionalität und strikte Filterung nach niedriger Schrittanzahl – etablieren wir eine stärkere Baseline. Nach dem Training mit lediglich 10.600 Datensätzen erzielt unser OpenSeeker-v2 Spitzenleistungen in vier Benchmarks (30B-große Agenten mit ReAct-Paradigma): 46,0 % bei BrowseComp, 58,1 % bei BrowseComp-ZH, 34,6 % bei Humanity's Last Exam und 78,0 % bei xbench. Damit übertrifft es sogar Tongyi DeepResearch, das mit dem aufwändigen CPT+SFT+RL-Prozess trainiert wurde und jeweils 43,4 %, 46,7 %, 32,9 % und 75,0 % erreicht. Bemerkenswerterweise ist OpenSeeker-v2 der erste Suchagent auf Spitzenniveau in seiner Modellgröße und seinem Paradigma, der von einem rein akademischen Team entwickelt wurde, das ausschließlich SFT verwendete. Wir freuen uns, die OpenSeeker-v2-Modellgewichte zu open-sourcen und unsere einfachen, aber effektiven Erkenntnisse zu teilen, um die Forschung zu fortschrittlichen Suchagenten für die Community besser zugänglich zu machen.

English

Deep search capabilities have become an indispensable competency for frontier Large Language Model (LLM) agents, yet their development remains dominated by industrial giants. The typical industry recipe involves a highly resource-intensive pipeline spanning pre-training, continual pre-training (CPT), supervised fine-tuning (SFT), and reinforcement learning (RL). In this report, we show that when fueled with informative and high-difficulty trajectories, a simple SFT approach could be surprisingly powerful for training frontier search agents. By introducing three simple data synthesis modifications: scaling knowledge graph size for richer exploration, expanding the tool set size for broader functionality, and strict low-step filtering, we establish a stronger baseline. Trained on merely 10.6k data points, our OpenSeeker-v2 achieves state-of-the-art performance across 4 benchmarks (30B-sized agents with ReAct paradigm): 46.0% on BrowseComp, 58.1% on BrowseComp-ZH, 34.6% on Humanity's Last Exam, and 78.0% on xbench, surpassing even Tongyi DeepResearch trained with heavy CPT+SFT+RL pipeline, which achieves 43.4%, 46.7%, 32.9%, and 75.0%, respectively. Notably, OpenSeeker-v2 represents the first state-of-the-art search agent within its model scale and paradigm to be developed by a purely academic team using only SFT. We are excited to open-source the OpenSeeker-v2 model weights and share our simple yet effective findings to make frontier search agent research more accessible to the community.

OpenSeeker-v2: Erweiterung der Grenzen von Suchagenten durch informative und anspruchsvolle Trajektorien

OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories

Zusammenfassung

Support