Além dos Limites de Turnos: Treinando Agentes de Busca Profunda com Janela de Contexto Dinâmico
Beyond Turn Limits: Training Deep Search Agents with Dynamic Context Window
October 9, 2025
Autores: Qiaoyu Tang, Hao Xiang, Le Yu, Bowen Yu, Yaojie Lu, Xianpei Han, Le Sun, WenJuan Zhang, Pengbo Wang, Shixuan Liu, Zhenru Zhang, Jianhong Tu, Hongyu Lin, Junyang Lin
cs.AI
Resumo
Embora avanços recentes em modelos de raciocínio tenham demonstrado comportamentos cognitivos por meio de aprendizado por reforço, as abordagens existentes lutam para invocar capacidades de raciocínio profundo em agentes de múltiplas interações com horizontes temporais longos. Propomos o DeepMiner, uma estrutura inovadora que elicia tais habilidades ao introduzir tarefas de treinamento de alta dificuldade e uma janela de contexto dinâmica. O DeepMiner apresenta um método de construção reversa para gerar pares de perguntas e respostas complexos, mas verificáveis, a partir de fontes web autênticas, o que garante o desafio e a confiabilidade dos dados de treinamento enquanto injeta capacidades cognitivas em cenários de raciocínio de múltiplas interações. Além disso, projetamos uma estratégia de gerenciamento de contexto dinâmico elegante, porém eficaz, tanto para treinamento quanto para inferência, utilizando mecanismos de janela deslizante enquanto eliminamos a dependência de modelos externos de sumarização, capacitando assim o modelo a lidar de forma eficiente com contextos de longo horizonte que se expandem continuamente. Por meio de aprendizado por reforço no Qwen3-32B, desenvolvemos o DeepMiner-32B, que alcança melhorias substanciais de desempenho em vários benchmarks de agentes de busca. O DeepMiner atinge 33,5% de precisão no BrowseComp-en, superando o melhor agente de código aberto anterior em quase 20 pontos percentuais, e demonstra melhorias consistentes no BrowseComp-zh, XBench-DeepSearch e GAIA. Notavelmente, nosso gerenciamento de contexto dinâmico permite interações sustentadas de quase 100 turnos dentro do comprimento de contexto padrão de 32k, abordando efetivamente as limitações de contexto que restringem os sistemas existentes de interação de múltiplos turnos.
English
While recent advances in reasoning models have demonstrated cognitive
behaviors through reinforcement learning, existing approaches struggle to
invoke deep reasoning capabilities in multi-turn agents with long-horizon
interactions. We propose DeepMiner, a novel framework that elicits such
abilities by introducing high-difficulty training tasks and dynamic context
window. DeepMiner presents a reverse construction method to generate complex
but verifiable question-answer pairs from authentic web sources, which ensures
the challenge and reliability of training data while injecting cognitive
capabilities into multi-turn reasoning scenarios. We further design an elegant
yet effective dynamic context management strategy for both training and
inference, utilizing sliding window mechanisms while eliminating the dependency
on external summarization models, thereby efficiently empowering the model to
handle continuously expanding long-horizon contexts. Through reinforcement
learning on Qwen3-32B, we develop DeepMiner-32B, which achieves substantial
performance improvements across multiple search agent benchmarks. DeepMiner
attains 33.5% accuracy on BrowseComp-en, surpassing the previous best
open-source agent by almost 20 percentage points, and demonstrates consistent
improvements on BrowseComp-zh, XBench-DeepSearch, and GAIA. Notably, our
dynamic context management enables sustained interactions of nearly 100 turns
within standard 32k context length, effectively addressing the context
limitations that constrain existing multi-turn interaction systems.