Au-delà des limites de tour : Entraîner des agents de recherche profonde avec une fenêtre de contexte dynamique

papers.abstract

Alors que les récents progrès dans les modèles de raisonnement ont démontré des comportements cognitifs grâce à l'apprentissage par renforcement, les approches existantes peinent à susciter des capacités de raisonnement approfondi dans les agents multi-tours avec des interactions à long horizon. Nous proposons DeepMiner, un cadre novateur qui suscite de telles capacités en introduisant des tâches d'entraînement de haute difficulté et une fenêtre contextuelle dynamique. DeepMiner présente une méthode de construction inverse pour générer des paires question-réponse complexes mais vérifiables à partir de sources web authentiques, ce qui garantit le défi et la fiabilité des données d'entraînement tout en injectant des capacités cognitives dans les scénarios de raisonnement multi-tours. Nous concevons en outre une stratégie de gestion contextuelle dynamique à la fois élégante et efficace pour l'entraînement et l'inférence, utilisant des mécanismes de fenêtre glissante tout en éliminant la dépendance aux modèles de synthèse externes, permettant ainsi au modèle de gérer efficacement des contextes à long horizon en expansion continue. Grâce à l'apprentissage par renforcement sur Qwen3-32B, nous développons DeepMiner-32B, qui réalise des améliorations substantielles de performance sur plusieurs benchmarks d'agents de recherche. DeepMiner atteint une précision de 33,5 % sur BrowseComp-en, surpassant le meilleur agent open-source précédent de près de 20 points de pourcentage, et démontre des améliorations constantes sur BrowseComp-zh, XBench-DeepSearch et GAIA. Notamment, notre gestion contextuelle dynamique permet des interactions soutenues de près de 100 tours dans une longueur de contexte standard de 32k, résolvant efficacement les limitations de contexte qui contraignent les systèmes d'interaction multi-tours existants.

English

While recent advances in reasoning models have demonstrated cognitive behaviors through reinforcement learning, existing approaches struggle to invoke deep reasoning capabilities in multi-turn agents with long-horizon interactions. We propose DeepMiner, a novel framework that elicits such abilities by introducing high-difficulty training tasks and dynamic context window. DeepMiner presents a reverse construction method to generate complex but verifiable question-answer pairs from authentic web sources, which ensures the challenge and reliability of training data while injecting cognitive capabilities into multi-turn reasoning scenarios. We further design an elegant yet effective dynamic context management strategy for both training and inference, utilizing sliding window mechanisms while eliminating the dependency on external summarization models, thereby efficiently empowering the model to handle continuously expanding long-horizon contexts. Through reinforcement learning on Qwen3-32B, we develop DeepMiner-32B, which achieves substantial performance improvements across multiple search agent benchmarks. DeepMiner attains 33.5% accuracy on BrowseComp-en, surpassing the previous best open-source agent by almost 20 percentage points, and demonstrates consistent improvements on BrowseComp-zh, XBench-DeepSearch, and GAIA. Notably, our dynamic context management enables sustained interactions of nearly 100 turns within standard 32k context length, effectively addressing the context limitations that constrain existing multi-turn interaction systems.

Au-delà des limites de tour : Entraîner des agents de recherche profonde avec une fenêtre de contexte dynamique

Beyond Turn Limits: Training Deep Search Agents with Dynamic Context Window

papers.abstract

Support