Más allá de los límites de turnos: Entrenamiento de agentes de búsqueda profunda con ventana de contexto dinámico

Resumen

Si bien los avances recientes en modelos de razonamiento han demostrado comportamientos cognitivos a través del aprendizaje por refuerzo, los enfoques existentes luchan por invocar capacidades de razonamiento profundo en agentes de múltiples turnos con interacciones de largo horizonte. Proponemos DeepMiner, un marco novedoso que fomenta dichas capacidades mediante la introducción de tareas de entrenamiento de alta dificultad y una ventana de contexto dinámica. DeepMiner presenta un método de construcción inversa para generar pares pregunta-respuesta complejos pero verificables a partir de fuentes web auténticas, lo que garantiza el desafío y la confiabilidad de los datos de entrenamiento mientras inyecta capacidades cognitivas en escenarios de razonamiento de múltiples turnos. Además, diseñamos una estrategia de gestión de contexto dinámica elegante pero efectiva tanto para el entrenamiento como para la inferencia, utilizando mecanismos de ventana deslizante mientras eliminamos la dependencia de modelos externos de resumen, lo que permite al modelo manejar de manera eficiente contextos de largo horizonte en constante expansión. A través del aprendizaje por refuerzo en Qwen3-32B, desarrollamos DeepMiner-32B, que logra mejoras sustanciales en el rendimiento en múltiples benchmarks de agentes de búsqueda. DeepMiner alcanza un 33.5% de precisión en BrowseComp-en, superando al mejor agente de código abierto anterior por casi 20 puntos porcentuales, y demuestra mejoras consistentes en BrowseComp-zh, XBench-DeepSearch y GAIA. Notablemente, nuestra gestión de contexto dinámico permite interacciones sostenidas de casi 100 turnos dentro de una longitud de contexto estándar de 32k, abordando efectivamente las limitaciones de contexto que restringen los sistemas de interacción de múltiples turnos existentes.

English

While recent advances in reasoning models have demonstrated cognitive behaviors through reinforcement learning, existing approaches struggle to invoke deep reasoning capabilities in multi-turn agents with long-horizon interactions. We propose DeepMiner, a novel framework that elicits such abilities by introducing high-difficulty training tasks and dynamic context window. DeepMiner presents a reverse construction method to generate complex but verifiable question-answer pairs from authentic web sources, which ensures the challenge and reliability of training data while injecting cognitive capabilities into multi-turn reasoning scenarios. We further design an elegant yet effective dynamic context management strategy for both training and inference, utilizing sliding window mechanisms while eliminating the dependency on external summarization models, thereby efficiently empowering the model to handle continuously expanding long-horizon contexts. Through reinforcement learning on Qwen3-32B, we develop DeepMiner-32B, which achieves substantial performance improvements across multiple search agent benchmarks. DeepMiner attains 33.5% accuracy on BrowseComp-en, surpassing the previous best open-source agent by almost 20 percentage points, and demonstrates consistent improvements on BrowseComp-zh, XBench-DeepSearch, and GAIA. Notably, our dynamic context management enables sustained interactions of nearly 100 turns within standard 32k context length, effectively addressing the context limitations that constrain existing multi-turn interaction systems.

Más allá de los límites de turnos: Entrenamiento de agentes de búsqueda profunda con ventana de contexto dinámico

Beyond Turn Limits: Training Deep Search Agents with Dynamic Context Window

Resumen

Support