OpenSeeker: Democratizando Agentes de Busca de Fronteira através da Disponibilização Aberta Completa de Dados de Treinamento

Resumo

As capacidades de busca profunda tornaram-se uma competência indispensável para agentes de Linguagem de Grande Porte (LLM) de fronteira, contudo, o desenvolvimento de agentes de busca de alto desempenho continua dominado por gigantes industriais devido à falta de dados de treinamento transparentes e de alta qualidade. Esta escassez persistente de dados tem dificultado fundamentalmente o progresso da comunidade de pesquisa mais ampla no desenvolvimento e inovação neste domínio. Para colmatar esta lacuna, introduzimos o OpenSeeker, o primeiro agente de busca totalmente de código aberto (ou seja, modelo e dados) que alcança um desempenho de nível de fronteira através de duas inovações técnicas centrais: (1) Síntese de Perguntas e Respostas (QA) escalável, controlável e baseada em fatos, que faz a engenharia reversa do grafo da web via expansão topológica e ofuscação de entidades para gerar tarefas complexas de raciocínio multi-hop com cobertura e complexidade controláveis. (2) Síntese de trajetória com remoção de ruído, que emprega um mecanismo de sumarização retrospectiva para remover o ruído da trajetória, promovendo assim que os LLMs professores gerem ações de alta qualidade. Resultados experimentais demonstram que o OpenSeeker, treinado (num único ciclo de treino) com apenas 11.7k amostras sintetizadas, alcança um desempenho state-of-the-art em múltiplos benchmarks, incluindo BrowseComp, BrowseComp-ZH, xbench-DeepSearch e WideSearch. Notavelmente, treinado com SFT simples, o OpenSeeker supera significativamente o segundo melhor agente totalmente de código aberto, DeepDive (por exemplo, 29.5% contra 15.3% no BrowseComp), e até ultrapassa concorrentes industriais como o Tongyi DeepResearch (treinado via pré-treinamento contínuo extensivo, SFT e RL) no BrowseComp-ZH (48.4% contra 46.7%). Disponibilizamos totalmente em código aberto o conjunto de dados de treinamento completo e os pesos do modelo para democratizar a pesquisa de agentes de busca de fronteira e fomentar um ecossistema mais transparente e colaborativo.

English

Deep search capabilities have become an indispensable competency for frontier Large Language Model (LLM) agents, yet the development of high-performance search agents remains dominated by industrial giants due to a lack of transparent, high-quality training data. This persistent data scarcity has fundamentally hindered the progress of the broader research community in developing and innovating within this domain. To bridge this gap, we introduce OpenSeeker, the first fully open-source search agent (i.e., model and data) that achieves frontier-level performance through two core technical innovations: (1) Fact-grounded scalable controllable QA synthesis, which reverse-engineers the web graph via topological expansion and entity obfuscation to generate complex, multi-hop reasoning tasks with controllable coverage and complexity. (2) Denoised trajectory synthesis, which employs a retrospective summarization mechanism to denoise the trajectory, therefore promoting the teacher LLMs to generate high-quality actions. Experimental results demonstrate that OpenSeeker, trained (a single training run) on only 11.7k synthesized samples, achieves state-of-the-art performance across multiple benchmarks including BrowseComp, BrowseComp-ZH, xbench-DeepSearch, and WideSearch. Notably, trained with simple SFT, OpenSeeker significantly outperforms the second-best fully open-source agent DeepDive (e.g., 29.5% v.s. 15.3% on BrowseComp), and even surpasses industrial competitors such as Tongyi DeepResearch (trained via extensive continual pre-training, SFT, and RL) on BrowseComp-ZH (48.4% v.s. 46.7%). We fully open-source the complete training dataset and the model weights to democratize frontier search agent research and foster a more transparent, collaborative ecosystem.

OpenSeeker: Democratizando Agentes de Busca de Fronteira através da Disponibilização Aberta Completa de Dados de Treinamento

OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data

Resumo

Support