ChatPaper.aiChatPaper

Voorbij Beurtenlimieten: Diepe Zoekagenten Trainen met Dynamische Contextvensters

Beyond Turn Limits: Training Deep Search Agents with Dynamic Context Window

October 9, 2025
Auteurs: Qiaoyu Tang, Hao Xiang, Le Yu, Bowen Yu, Yaojie Lu, Xianpei Han, Le Sun, WenJuan Zhang, Pengbo Wang, Shixuan Liu, Zhenru Zhang, Jianhong Tu, Hongyu Lin, Junyang Lin
cs.AI

Samenvatting

Hoewel recente vooruitgang in redeneermodellen cognitief gedrag heeft aangetoond door middel van reinforcement learning, hebben bestaande benaderingen moeite om diepe redeneervaardigheden op te roepen in multi-turn agents met langetermijninteracties. Wij stellen DeepMiner voor, een nieuw framework dat dergelijke vaardigheden aanwakkert door het introduceren van hoogcomplexe trainings taken en een dynamisch contextvenster. DeepMiner presenteert een omgekeerde constructiemethode om complexe maar verifieerbare vraag-antwoordparen te genereren uit authentieke webbronnen, wat de uitdaging en betrouwbaarheid van de trainingsdata waarborgt terwijl cognitieve vaardigheden worden geïnjecteerd in multi-turn redeneerscenario's. We ontwerpen verder een elegante doch effectieve dynamische contextbeheerstrategie voor zowel training als inferentie, waarbij gebruik wordt gemaakt van schuifvenstermechanismen terwijl de afhankelijkheid van externe samenvattingsmodellen wordt geëlimineerd, waardoor het model efficiënt wordt toegerust om continu uitbreidende langetermijncontexten te hanteren. Door reinforcement learning op Qwen3-32B ontwikkelen we DeepMiner-32B, dat aanzienlijke prestatieverbeteringen behaalt op meerdere zoekagentbenchmarks. DeepMiner bereikt een nauwkeurigheid van 33,5% op BrowseComp-en, wat de vorige beste open-source agent met bijna 20 procentpunten overtreft, en toont consistente verbeteringen op BrowseComp-zh, XBench-DeepSearch en GAIA. Opmerkelijk is dat ons dynamische contextbeheer duurzame interacties van bijna 100 beurten mogelijk maakt binnen de standaard 32k contextlengte, waardoor de contextbeperkingen die bestaande multi-turn interactiesystemen beperken effectief worden aangepakt.
English
While recent advances in reasoning models have demonstrated cognitive behaviors through reinforcement learning, existing approaches struggle to invoke deep reasoning capabilities in multi-turn agents with long-horizon interactions. We propose DeepMiner, a novel framework that elicits such abilities by introducing high-difficulty training tasks and dynamic context window. DeepMiner presents a reverse construction method to generate complex but verifiable question-answer pairs from authentic web sources, which ensures the challenge and reliability of training data while injecting cognitive capabilities into multi-turn reasoning scenarios. We further design an elegant yet effective dynamic context management strategy for both training and inference, utilizing sliding window mechanisms while eliminating the dependency on external summarization models, thereby efficiently empowering the model to handle continuously expanding long-horizon contexts. Through reinforcement learning on Qwen3-32B, we develop DeepMiner-32B, which achieves substantial performance improvements across multiple search agent benchmarks. DeepMiner attains 33.5% accuracy on BrowseComp-en, surpassing the previous best open-source agent by almost 20 percentage points, and demonstrates consistent improvements on BrowseComp-zh, XBench-DeepSearch, and GAIA. Notably, our dynamic context management enables sustained interactions of nearly 100 turns within standard 32k context length, effectively addressing the context limitations that constrain existing multi-turn interaction systems.
PDF92October 10, 2025