OpenSeeker: Демократизация передовых поисковых агентов за счет полного открытия обучающих данных

Аннотация

Глубокий поиск стал неотъемлемой компетенцией для передовых агентов на основе больших языковых моделей (LLM), однако разработка высокопроизводительных поисковых агентов остается прерогативой промышленных гигантов из-за отсутствия прозрачных и качественных обучающих данных. Эта устойчивая нехватка данных фундаментально сдерживает прогресс широкого исследовательского сообщества в разработке и инновациях в данной области. Чтобы устранить этот разрыв, мы представляем OpenSeeker — первого полностью открытого поискового агента (т.е. модель и данные), достигающего передового уровня производительности благодаря двум ключевым техническим инновациям: (1) Масштабируемый контролируемый синтез вопросно-ответных пар, основанный на фактах, который реконструирует веб-граф с помощью топологического расширения и обфускации сущностей для генерации сложных многозвенных задач с контролируемым охватом и сложностью. (2) Синтез очищенных траекторий, который использует механизм ретроспективного суммирования для удаления шума из траектории, тем самым побуждая учительские LLM генерировать высококачественные действия. Результаты экспериментов демонстрируют, что OpenSeeker, обученный (за одну сессию обучения) всего на 11.7 тыс. синтезированных примеров, достигает наилучшей производительности на множестве бенчмарков, включая BrowseComp, BrowseComp-ZH, xbench-DeepSearch и WideSearch. Примечательно, что при обучении с помощью простого SFT, OpenSeeker значительно превосходит второго по результатам полностью открытого агента DeepDive (например, 29.5% против 15.3% на BrowseComp) и даже опережает промышленных конкурентов, таких как Tongyi DeepResearch (обученный с помощью обширного непрерывного предобучения, SFT и RL), на BrowseComp-ZH (48.4% против 46.7%). Мы полностью открываем полный набор обучающих данных и веса модели, чтобы демократизировать исследования передовых поисковых агентов и способствовать созданию более прозрачной и collaborative экосистемы.

English

Deep search capabilities have become an indispensable competency for frontier Large Language Model (LLM) agents, yet the development of high-performance search agents remains dominated by industrial giants due to a lack of transparent, high-quality training data. This persistent data scarcity has fundamentally hindered the progress of the broader research community in developing and innovating within this domain. To bridge this gap, we introduce OpenSeeker, the first fully open-source search agent (i.e., model and data) that achieves frontier-level performance through two core technical innovations: (1) Fact-grounded scalable controllable QA synthesis, which reverse-engineers the web graph via topological expansion and entity obfuscation to generate complex, multi-hop reasoning tasks with controllable coverage and complexity. (2) Denoised trajectory synthesis, which employs a retrospective summarization mechanism to denoise the trajectory, therefore promoting the teacher LLMs to generate high-quality actions. Experimental results demonstrate that OpenSeeker, trained (a single training run) on only 11.7k synthesized samples, achieves state-of-the-art performance across multiple benchmarks including BrowseComp, BrowseComp-ZH, xbench-DeepSearch, and WideSearch. Notably, trained with simple SFT, OpenSeeker significantly outperforms the second-best fully open-source agent DeepDive (e.g., 29.5% v.s. 15.3% on BrowseComp), and even surpasses industrial competitors such as Tongyi DeepResearch (trained via extensive continual pre-training, SFT, and RL) on BrowseComp-ZH (48.4% v.s. 46.7%). We fully open-source the complete training dataset and the model weights to democratize frontier search agent research and foster a more transparent, collaborative ecosystem.

OpenSeeker: Демократизация передовых поисковых агентов за счет полного открытия обучающих данных

OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data

Аннотация

Support