OpenSeeker-v2: Расширение границ поисковых агентов за счет информативных и сложных траекторий

Аннотация

Возможности глубокого поиска стали неотъемлемой компетенцией для передовых агентов на основе больших языковых моделей (LLM), однако их разработка по-прежнему доминируется промышленными гигантами. Типичный отраслевой подход включает в себя крайне ресурсоемкий конвейер, охватывающий предварительное обучение, непрерывное предварительное обучение (CPT), контролируемую тонкую настройку (SFT) и обучение с подкреплением (RL). В данном отчете мы показываем, что при использовании информативных и сложных траекторий простой подход SFT может оказаться на удивление эффективным для обучения передовых поисковых агентов. Благодаря введению трех простых модификаций синтеза данных: масштабированию размера графа знаний для более богатого исследования, расширению набора инструментов для большей функциональности и строгой фильтрации по малому числу шагов, мы устанавливаем более сильный базовый уровень. Обученная всего на 10.6 тысячах точек данных, наша модель OpenSeeker-v2 демонстрирует наилучшую производительность на 4 тестовых наборах (агенты размером 30B с парадигмой ReAct): 46.0% на BrowseComp, 58.1% на BrowseComp-ZH, 34.6% на Humanity's Last Exam и 78.0% на xbench, превосходя даже Tongyi DeepResearch, обученную с помощью тяжелого конвейера CPT+SFT+RL, которая показывает результаты 43.4%, 46.7%, 32.9% и 75.0% соответственно. Примечательно, что OpenSeeker-v2 представляет собой первого агента с наилучшими показателями в своем масштабе модели и парадигме, разработанного исключительно академической командой с использованием только SFT. Мы рады открыть исходный код весов модели OpenSeeker-v2 и поделиться нашими простыми, но эффективными результатами, чтобы сделать исследования передовых поисковых агентов более доступными для сообщества.

English

Deep search capabilities have become an indispensable competency for frontier Large Language Model (LLM) agents, yet their development remains dominated by industrial giants. The typical industry recipe involves a highly resource-intensive pipeline spanning pre-training, continual pre-training (CPT), supervised fine-tuning (SFT), and reinforcement learning (RL). In this report, we show that when fueled with informative and high-difficulty trajectories, a simple SFT approach could be surprisingly powerful for training frontier search agents. By introducing three simple data synthesis modifications: scaling knowledge graph size for richer exploration, expanding the tool set size for broader functionality, and strict low-step filtering, we establish a stronger baseline. Trained on merely 10.6k data points, our OpenSeeker-v2 achieves state-of-the-art performance across 4 benchmarks (30B-sized agents with ReAct paradigm): 46.0% on BrowseComp, 58.1% on BrowseComp-ZH, 34.6% on Humanity's Last Exam, and 78.0% on xbench, surpassing even Tongyi DeepResearch trained with heavy CPT+SFT+RL pipeline, which achieves 43.4%, 46.7%, 32.9%, and 75.0%, respectively. Notably, OpenSeeker-v2 represents the first state-of-the-art search agent within its model scale and paradigm to be developed by a purely academic team using only SFT. We are excited to open-source the OpenSeeker-v2 model weights and share our simple yet effective findings to make frontier search agent research more accessible to the community.

OpenSeeker-v2: Расширение границ поисковых агентов за счет информативных и сложных траекторий

OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories

Аннотация

Support