OpenSeeker-v2: Llevando al Límite a los Agentes de Búsqueda mediante Trayectorias Informativas y de Alta Dificultad

Resumen

Las capacidades de búsqueda profunda se han convertido en una competencia indispensable para los agentes de modelos de lenguaje grandes (LLM) de vanguardia, aunque su desarrollo sigue dominado por los gigantes industriales. La receta típica de la industria implica una canalización altamente intensiva en recursos que abarca preentrenamiento, preentrenamiento continuo (CPT), ajuste fino supervisado (SFT) y aprendizaje por refuerzo (RL). En este informe, demostramos que, cuando se alimenta con trayectorias informativas y de alta dificultad, un enfoque simple de SFT puede ser sorprendentemente potente para entrenar agentes de búsqueda de vanguardia. Al introducir tres modificaciones simples en la síntesis de datos: escalar el tamaño del grafo de conocimiento para una exploración más rica, ampliar el tamaño del conjunto de herramientas para una funcionalidad más amplia y un filtrado estricto de bajo número de pasos, establecemos una línea base más sólida. Entrenado con apenas 10.6k puntos de datos, nuestro OpenSeeker-v2 logra un rendimiento de vanguardia en 4 benchmarks (agentes de tamaño 30B con paradigma ReAct): 46.0% en BrowseComp, 58.1% en BrowseComp-ZH, 34.6% en Humanity's Last Exam y 78.0% en xbench, superando incluso a Tongyi DeepResearch entrenado con la pesada canalización CPT+SFT+RL, que logra 43.4%, 46.7%, 32.9% y 75.0%, respectivamente. Notablemente, OpenSeeker-v2 representa el primer agente de búsqueda de vanguardia dentro de su escala de modelo y paradigma desarrollado por un equipo puramente académico utilizando solo SFT. Nos entusiasma abrir el código de los pesos del modelo OpenSeeker-v2 y compartir nuestros hallazgos simples pero efectivos para hacer que la investigación de agentes de búsqueda de vanguardia sea más accesible para la comunidad.

English

Deep search capabilities have become an indispensable competency for frontier Large Language Model (LLM) agents, yet their development remains dominated by industrial giants. The typical industry recipe involves a highly resource-intensive pipeline spanning pre-training, continual pre-training (CPT), supervised fine-tuning (SFT), and reinforcement learning (RL). In this report, we show that when fueled with informative and high-difficulty trajectories, a simple SFT approach could be surprisingly powerful for training frontier search agents. By introducing three simple data synthesis modifications: scaling knowledge graph size for richer exploration, expanding the tool set size for broader functionality, and strict low-step filtering, we establish a stronger baseline. Trained on merely 10.6k data points, our OpenSeeker-v2 achieves state-of-the-art performance across 4 benchmarks (30B-sized agents with ReAct paradigm): 46.0% on BrowseComp, 58.1% on BrowseComp-ZH, 34.6% on Humanity's Last Exam, and 78.0% on xbench, surpassing even Tongyi DeepResearch trained with heavy CPT+SFT+RL pipeline, which achieves 43.4%, 46.7%, 32.9%, and 75.0%, respectively. Notably, OpenSeeker-v2 represents the first state-of-the-art search agent within its model scale and paradigm to be developed by a purely academic team using only SFT. We are excited to open-source the OpenSeeker-v2 model weights and share our simple yet effective findings to make frontier search agent research more accessible to the community.

OpenSeeker-v2: Llevando al Límite a los Agentes de Búsqueda mediante Trayectorias Informativas y de Alta Dificultad

OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories

Resumen

Support