Jenseits von Zuglimits: Training von Deep-Search-Agenten mit dynamischem Kontextfenster
Beyond Turn Limits: Training Deep Search Agents with Dynamic Context Window
October 9, 2025
papers.authors: Qiaoyu Tang, Hao Xiang, Le Yu, Bowen Yu, Yaojie Lu, Xianpei Han, Le Sun, WenJuan Zhang, Pengbo Wang, Shixuan Liu, Zhenru Zhang, Jianhong Tu, Hongyu Lin, Junyang Lin
cs.AI
papers.abstract
Während jüngste Fortschritte bei Reasoning-Modellen kognitive Verhaltensweisen durch Reinforcement Learning demonstriert haben, kämpfen bestehende Ansätze damit, tiefgreifende Reasoning-Fähigkeiten in Multi-Turn-Agenten mit langfristigen Interaktionen zu aktivieren. Wir schlagen DeepMiner vor, ein neuartiges Framework, das solche Fähigkeiten durch die Einführung von hochschwierigen Trainingsaufgaben und einem dynamischen Kontextfenster fördert. DeepMiner präsentiert eine umgekehrte Konstruktionsmethode, um komplexe, aber verifizierbare Frage-Antwort-Paare aus authentischen Webquellen zu generieren, was die Herausforderung und Zuverlässigkeit der Trainingsdaten sicherstellt und gleichzeitig kognitive Fähigkeiten in Multi-Turn-Reasoning-Szenarien einbringt. Wir entwerfen weiterhin eine elegante, aber effektive dynamische Kontextmanagement-Strategie für sowohl Training als auch Inferenz, die Schiebefenster-Mechanismen nutzt, während die Abhängigkeit von externen Zusammenfassungsmodellen eliminiert wird, wodurch das Modell effizient befähigt wird, kontinuierlich expandierende langfristige Kontexte zu handhaben. Durch Reinforcement Learning auf Qwen3-32B entwickeln wir DeepMiner-32B, das erhebliche Leistungsverbesserungen über mehrere Suchagenten-Benchmarks hinweg erzielt. DeepMiner erreicht eine Genauigkeit von 33,5 % auf BrowseComp-en, übertrifft den bisher besten Open-Source-Agenten um fast 20 Prozentpunkte und zeigt konsistente Verbesserungen auf BrowseComp-zh, XBench-DeepSearch und GAIA. Bemerkenswerterweise ermöglicht unser dynamisches Kontextmanagement nachhaltige Interaktionen von fast 100 Runden innerhalb der standardmäßigen 32k-Kontextlänge und adressiert effektiv die Kontextbeschränkungen, die bestehende Multi-Turn-Interaktionssysteme einschränken.
English
While recent advances in reasoning models have demonstrated cognitive
behaviors through reinforcement learning, existing approaches struggle to
invoke deep reasoning capabilities in multi-turn agents with long-horizon
interactions. We propose DeepMiner, a novel framework that elicits such
abilities by introducing high-difficulty training tasks and dynamic context
window. DeepMiner presents a reverse construction method to generate complex
but verifiable question-answer pairs from authentic web sources, which ensures
the challenge and reliability of training data while injecting cognitive
capabilities into multi-turn reasoning scenarios. We further design an elegant
yet effective dynamic context management strategy for both training and
inference, utilizing sliding window mechanisms while eliminating the dependency
on external summarization models, thereby efficiently empowering the model to
handle continuously expanding long-horizon contexts. Through reinforcement
learning on Qwen3-32B, we develop DeepMiner-32B, which achieves substantial
performance improvements across multiple search agent benchmarks. DeepMiner
attains 33.5% accuracy on BrowseComp-en, surpassing the previous best
open-source agent by almost 20 percentage points, and demonstrates consistent
improvements on BrowseComp-zh, XBench-DeepSearch, and GAIA. Notably, our
dynamic context management enables sustained interactions of nearly 100 turns
within standard 32k context length, effectively addressing the context
limitations that constrain existing multi-turn interaction systems.