ChatPaper.aiChatPaper

Oltre i Limiti di Turno: Addestramento di Agenti di Ricerca Profonda con Finestra di Contesto Dinamica

Beyond Turn Limits: Training Deep Search Agents with Dynamic Context Window

October 9, 2025
Autori: Qiaoyu Tang, Hao Xiang, Le Yu, Bowen Yu, Yaojie Lu, Xianpei Han, Le Sun, WenJuan Zhang, Pengbo Wang, Shixuan Liu, Zhenru Zhang, Jianhong Tu, Hongyu Lin, Junyang Lin
cs.AI

Abstract

Mentre i recenti progressi nei modelli di ragionamento hanno dimostrato comportamenti cognitivi attraverso l'apprendimento per rinforzo, gli approcci esistenti faticano a evocare capacità di ragionamento profondo in agenti multi-turn con interazioni a lungo termine. Proponiamo DeepMiner, un nuovo framework che stimola tali abilità introducendo compiti di formazione ad alta difficoltà e una finestra di contesto dinamica. DeepMiner presenta un metodo di costruzione inversa per generare coppie domanda-risposta complesse ma verificabili da fonti web autentiche, garantendo così la sfida e l'affidabilità dei dati di formazione mentre si infondono capacità cognitive negli scenari di ragionamento multi-turn. Progettiamo inoltre una strategia di gestione del contesto dinamica elegante ma efficace sia per la formazione che per l'inferenza, utilizzando meccanismi a finestra scorrevole ed eliminando la dipendenza da modelli di riepilogo esterni, potenziando così in modo efficiente il modello per gestire contesti a lungo termine in continua espansione. Attraverso l'apprendimento per rinforzo su Qwen3-32B, sviluppiamo DeepMiner-32B, che ottiene miglioramenti significativi delle prestazioni su più benchmark di agenti di ricerca. DeepMiner raggiunge un'accuratezza del 33,5% su BrowseComp-en, superando di quasi 20 punti percentuali il miglior agente open-source precedente, e dimostra miglioramenti costanti su BrowseComp-zh, XBench-DeepSearch e GAIA. In particolare, la nostra gestione dinamica del contesto consente interazioni sostenute di quasi 100 turni all'interno della lunghezza standard del contesto di 32k, affrontando efficacemente le limitazioni del contesto che vincolano i sistemi di interazione multi-turn esistenti.
English
While recent advances in reasoning models have demonstrated cognitive behaviors through reinforcement learning, existing approaches struggle to invoke deep reasoning capabilities in multi-turn agents with long-horizon interactions. We propose DeepMiner, a novel framework that elicits such abilities by introducing high-difficulty training tasks and dynamic context window. DeepMiner presents a reverse construction method to generate complex but verifiable question-answer pairs from authentic web sources, which ensures the challenge and reliability of training data while injecting cognitive capabilities into multi-turn reasoning scenarios. We further design an elegant yet effective dynamic context management strategy for both training and inference, utilizing sliding window mechanisms while eliminating the dependency on external summarization models, thereby efficiently empowering the model to handle continuously expanding long-horizon contexts. Through reinforcement learning on Qwen3-32B, we develop DeepMiner-32B, which achieves substantial performance improvements across multiple search agent benchmarks. DeepMiner attains 33.5% accuracy on BrowseComp-en, surpassing the previous best open-source agent by almost 20 percentage points, and demonstrates consistent improvements on BrowseComp-zh, XBench-DeepSearch, and GAIA. Notably, our dynamic context management enables sustained interactions of nearly 100 turns within standard 32k context length, effectively addressing the context limitations that constrain existing multi-turn interaction systems.
PDF92October 10, 2025