OpenSeeker: Democratizando los Agentes de Búsqueda de Frontera mediante la Liberación Total de los Datos de Entrenamiento
OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data
March 16, 2026
Autores: Yuwen Du, Rui Ye, Shuo Tang, Xinyu Zhu, Yijun Lu, Yuzhu Cai, Siheng Chen
cs.AI
Resumen
Las capacidades de búsqueda profunda se han convertido en una competencia indispensable para los agentes de modelos de lenguaje grandes (LLM) de vanguardia, aunque el desarrollo de agentes de búsqueda de alto rendimiento sigue dominado por los gigantes industriales debido a la falta de datos de entrenamiento transparentes y de alta calidad. Esta persistente escasez de datos ha obstaculizado fundamentalmente el progreso de la comunidad investigadora en general para desarrollar e innovar en este dominio. Para cerrar esta brecha, presentamos OpenSeeker, el primer agente de búsqueda completamente de código abierto (es decir, modelo y datos) que alcanza un rendimiento de nivel de vanguardia mediante dos innovaciones técnicas centrales: (1) Síntesis escalable de preguntas y respuestas (QA) controlable y basada en hechos, que reverse-engineers el grafo web mediante expansión topológica y ofuscación de entidades para generar tareas complejas de razonamiento multi-salto con cobertura y complejidad controlables. (2) Síntesis de trayectoria limpiada de ruido, que emplea un mecanismo de resumen retrospectivo para limpiar la trayectoria, promoviendo así que los LLMs maestros generen acciones de alta calidad. Los resultados experimentales demuestran que OpenSeeker, entrenado (en una única ejecución de entrenamiento) con solo 11.7k muestras sintetizadas, alcanza un rendimiento state-of-the-art en múltiples benchmarks, incluyendo BrowseComp, BrowseComp-ZH, xbench-DeepSearch y WideSearch. Notablemente, entrenado con un simple Fine-Tuning Supervisado (SFT), OpenSeeker supera significativamente al segundo mejor agente completamente de código abierto, DeepDive (por ejemplo, 29.5% frente a 15.3% en BrowseComp), e incluso supera a competidores industriales como Tongyi DeepResearch (entrenado mediante pre-entrenamiento continuo extensivo, SFT y RL) en BrowseComp-ZH (48.4% frente a 46.7%). Liberamos completamente como código abierto el conjunto de datos de entrenamiento completo y los pesos del modelo para democratizar la investigación de agentes de búsqueda de vanguardia y fomentar un ecosistema más transparente y colaborativo.
English
Deep search capabilities have become an indispensable competency for frontier Large Language Model (LLM) agents, yet the development of high-performance search agents remains dominated by industrial giants due to a lack of transparent, high-quality training data. This persistent data scarcity has fundamentally hindered the progress of the broader research community in developing and innovating within this domain. To bridge this gap, we introduce OpenSeeker, the first fully open-source search agent (i.e., model and data) that achieves frontier-level performance through two core technical innovations: (1) Fact-grounded scalable controllable QA synthesis, which reverse-engineers the web graph via topological expansion and entity obfuscation to generate complex, multi-hop reasoning tasks with controllable coverage and complexity. (2) Denoised trajectory synthesis, which employs a retrospective summarization mechanism to denoise the trajectory, therefore promoting the teacher LLMs to generate high-quality actions. Experimental results demonstrate that OpenSeeker, trained (a single training run) on only 11.7k synthesized samples, achieves state-of-the-art performance across multiple benchmarks including BrowseComp, BrowseComp-ZH, xbench-DeepSearch, and WideSearch. Notably, trained with simple SFT, OpenSeeker significantly outperforms the second-best fully open-source agent DeepDive (e.g., 29.5% v.s. 15.3% on BrowseComp), and even surpasses industrial competitors such as Tongyi DeepResearch (trained via extensive continual pre-training, SFT, and RL) on BrowseComp-ZH (48.4% v.s. 46.7%). We fully open-source the complete training dataset and the model weights to democratize frontier search agent research and foster a more transparent, collaborative ecosystem.