ChatPaper.aiChatPaper

Jenseits von Zuglimits: Training von Deep-Search-Agenten mit dynamischem Kontextfenster

Beyond Turn Limits: Training Deep Search Agents with Dynamic Context Window

October 9, 2025
papers.authors: Qiaoyu Tang, Hao Xiang, Le Yu, Bowen Yu, Yaojie Lu, Xianpei Han, Le Sun, WenJuan Zhang, Pengbo Wang, Shixuan Liu, Zhenru Zhang, Jianhong Tu, Hongyu Lin, Junyang Lin
cs.AI

papers.abstract

Während jüngste Fortschritte bei Reasoning-Modellen kognitive Verhaltensweisen durch Reinforcement Learning demonstriert haben, kämpfen bestehende Ansätze damit, tiefgreifende Reasoning-Fähigkeiten in Multi-Turn-Agenten mit langfristigen Interaktionen zu aktivieren. Wir schlagen DeepMiner vor, ein neuartiges Framework, das solche Fähigkeiten durch die Einführung von hochschwierigen Trainingsaufgaben und einem dynamischen Kontextfenster fördert. DeepMiner präsentiert eine umgekehrte Konstruktionsmethode, um komplexe, aber verifizierbare Frage-Antwort-Paare aus authentischen Webquellen zu generieren, was die Herausforderung und Zuverlässigkeit der Trainingsdaten sicherstellt und gleichzeitig kognitive Fähigkeiten in Multi-Turn-Reasoning-Szenarien einbringt. Wir entwerfen weiterhin eine elegante, aber effektive dynamische Kontextmanagement-Strategie für sowohl Training als auch Inferenz, die Schiebefenster-Mechanismen nutzt, während die Abhängigkeit von externen Zusammenfassungsmodellen eliminiert wird, wodurch das Modell effizient befähigt wird, kontinuierlich expandierende langfristige Kontexte zu handhaben. Durch Reinforcement Learning auf Qwen3-32B entwickeln wir DeepMiner-32B, das erhebliche Leistungsverbesserungen über mehrere Suchagenten-Benchmarks hinweg erzielt. DeepMiner erreicht eine Genauigkeit von 33,5 % auf BrowseComp-en, übertrifft den bisher besten Open-Source-Agenten um fast 20 Prozentpunkte und zeigt konsistente Verbesserungen auf BrowseComp-zh, XBench-DeepSearch und GAIA. Bemerkenswerterweise ermöglicht unser dynamisches Kontextmanagement nachhaltige Interaktionen von fast 100 Runden innerhalb der standardmäßigen 32k-Kontextlänge und adressiert effektiv die Kontextbeschränkungen, die bestehende Multi-Turn-Interaktionssysteme einschränken.
English
While recent advances in reasoning models have demonstrated cognitive behaviors through reinforcement learning, existing approaches struggle to invoke deep reasoning capabilities in multi-turn agents with long-horizon interactions. We propose DeepMiner, a novel framework that elicits such abilities by introducing high-difficulty training tasks and dynamic context window. DeepMiner presents a reverse construction method to generate complex but verifiable question-answer pairs from authentic web sources, which ensures the challenge and reliability of training data while injecting cognitive capabilities into multi-turn reasoning scenarios. We further design an elegant yet effective dynamic context management strategy for both training and inference, utilizing sliding window mechanisms while eliminating the dependency on external summarization models, thereby efficiently empowering the model to handle continuously expanding long-horizon contexts. Through reinforcement learning on Qwen3-32B, we develop DeepMiner-32B, which achieves substantial performance improvements across multiple search agent benchmarks. DeepMiner attains 33.5% accuracy on BrowseComp-en, surpassing the previous best open-source agent by almost 20 percentage points, and demonstrates consistent improvements on BrowseComp-zh, XBench-DeepSearch, and GAIA. Notably, our dynamic context management enables sustained interactions of nearly 100 turns within standard 32k context length, effectively addressing the context limitations that constrain existing multi-turn interaction systems.
PDF72October 10, 2025