OpenSeeker-v2: De grenzen van zoekagentschappen verleggen met informatieve en hoogcomplexe trajecten

Samenvatting

Diepgaande zoekcapaciteiten zijn een onmisbare competentie geworden voor geavanceerde Large Language Model (LLM)-agenten, maar hun ontwikkeling wordt nog steeds gedomineerd door industriële giganten. Het typische industrierecept omvat een zeer resource-intensieve pijplijn die bestaat uit pre-training, voortgezette pre-training (CPT), supervised fine-tuning (SFT) en reinforcement learning (RL). In dit rapport tonen we aan dat, wanneer gevoed met informatieve en hoogcomplexe trajecten, een eenvoudige SFT-aanpak verrassend krachtig kan zijn voor het trainen van geavanceerde zoekagenten. Door drie eenvoudige datasynthesemodificaties te introduceren - het vergroten van de knowledge graph-grootte voor rijkere exploratie, het uitbreiden van de toolsetgrootte voor bredere functionaliteit en strikte filtering op weinig stappen - vestigen we een sterkere basislijn. Getraind op slechts 10.6k datapunten behaalt onze OpenSeeker-v2 state-of-the-art prestaties op 4 benchmarks (30B-grote agenten met ReAct-paradigma): 46.0% op BrowseComp, 58.1% op BrowseComp-ZH, 34.6% op Humanity's Last Exam en 78.0% op xbench, waarmee het zelfs Tongyi DeepResearch overtreft dat getraind is met de zware CPT+SFT+RL-pijplijn (respectievelijk 43.4%, 46.7%, 32.9% en 75.0%). Opmerkelijk is dat OpenSeeker-v2 de eerste state-of-the-art zoekagent binnen zijn modelschaal en paradigma vertegenwoordigt die door een puur academisch team is ontwikkeld met uitsluitend SFT. We zijn verheugd de OpenSeeker-v2 modelgewichten open source te maken en onze eenvoudige maar effectieve bevindingen te delen om onderzoek naar geavanceerde zoekagenten beter toegankelijk te maken voor de gemeenschap.

English

Deep search capabilities have become an indispensable competency for frontier Large Language Model (LLM) agents, yet their development remains dominated by industrial giants. The typical industry recipe involves a highly resource-intensive pipeline spanning pre-training, continual pre-training (CPT), supervised fine-tuning (SFT), and reinforcement learning (RL). In this report, we show that when fueled with informative and high-difficulty trajectories, a simple SFT approach could be surprisingly powerful for training frontier search agents. By introducing three simple data synthesis modifications: scaling knowledge graph size for richer exploration, expanding the tool set size for broader functionality, and strict low-step filtering, we establish a stronger baseline. Trained on merely 10.6k data points, our OpenSeeker-v2 achieves state-of-the-art performance across 4 benchmarks (30B-sized agents with ReAct paradigm): 46.0% on BrowseComp, 58.1% on BrowseComp-ZH, 34.6% on Humanity's Last Exam, and 78.0% on xbench, surpassing even Tongyi DeepResearch trained with heavy CPT+SFT+RL pipeline, which achieves 43.4%, 46.7%, 32.9%, and 75.0%, respectively. Notably, OpenSeeker-v2 represents the first state-of-the-art search agent within its model scale and paradigm to be developed by a purely academic team using only SFT. We are excited to open-source the OpenSeeker-v2 model weights and share our simple yet effective findings to make frontier search agent research more accessible to the community.

OpenSeeker-v2: De grenzen van zoekagentschappen verleggen met informatieve en hoogcomplexe trajecten

OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories

Samenvatting

Support