ChatPaper.aiChatPaper

Além dos Limites de Turnos: Treinando Agentes de Busca Profunda com Janela de Contexto Dinâmico

Beyond Turn Limits: Training Deep Search Agents with Dynamic Context Window

October 9, 2025
Autores: Qiaoyu Tang, Hao Xiang, Le Yu, Bowen Yu, Yaojie Lu, Xianpei Han, Le Sun, WenJuan Zhang, Pengbo Wang, Shixuan Liu, Zhenru Zhang, Jianhong Tu, Hongyu Lin, Junyang Lin
cs.AI

Resumo

Embora avanços recentes em modelos de raciocínio tenham demonstrado comportamentos cognitivos por meio de aprendizado por reforço, as abordagens existentes lutam para invocar capacidades de raciocínio profundo em agentes de múltiplas interações com horizontes temporais longos. Propomos o DeepMiner, uma estrutura inovadora que elicia tais habilidades ao introduzir tarefas de treinamento de alta dificuldade e uma janela de contexto dinâmica. O DeepMiner apresenta um método de construção reversa para gerar pares de perguntas e respostas complexos, mas verificáveis, a partir de fontes web autênticas, o que garante o desafio e a confiabilidade dos dados de treinamento enquanto injeta capacidades cognitivas em cenários de raciocínio de múltiplas interações. Além disso, projetamos uma estratégia de gerenciamento de contexto dinâmico elegante, porém eficaz, tanto para treinamento quanto para inferência, utilizando mecanismos de janela deslizante enquanto eliminamos a dependência de modelos externos de sumarização, capacitando assim o modelo a lidar de forma eficiente com contextos de longo horizonte que se expandem continuamente. Por meio de aprendizado por reforço no Qwen3-32B, desenvolvemos o DeepMiner-32B, que alcança melhorias substanciais de desempenho em vários benchmarks de agentes de busca. O DeepMiner atinge 33,5% de precisão no BrowseComp-en, superando o melhor agente de código aberto anterior em quase 20 pontos percentuais, e demonstra melhorias consistentes no BrowseComp-zh, XBench-DeepSearch e GAIA. Notavelmente, nosso gerenciamento de contexto dinâmico permite interações sustentadas de quase 100 turnos dentro do comprimento de contexto padrão de 32k, abordando efetivamente as limitações de contexto que restringem os sistemas existentes de interação de múltiplos turnos.
English
While recent advances in reasoning models have demonstrated cognitive behaviors through reinforcement learning, existing approaches struggle to invoke deep reasoning capabilities in multi-turn agents with long-horizon interactions. We propose DeepMiner, a novel framework that elicits such abilities by introducing high-difficulty training tasks and dynamic context window. DeepMiner presents a reverse construction method to generate complex but verifiable question-answer pairs from authentic web sources, which ensures the challenge and reliability of training data while injecting cognitive capabilities into multi-turn reasoning scenarios. We further design an elegant yet effective dynamic context management strategy for both training and inference, utilizing sliding window mechanisms while eliminating the dependency on external summarization models, thereby efficiently empowering the model to handle continuously expanding long-horizon contexts. Through reinforcement learning on Qwen3-32B, we develop DeepMiner-32B, which achieves substantial performance improvements across multiple search agent benchmarks. DeepMiner attains 33.5% accuracy on BrowseComp-en, surpassing the previous best open-source agent by almost 20 percentage points, and demonstrates consistent improvements on BrowseComp-zh, XBench-DeepSearch, and GAIA. Notably, our dynamic context management enables sustained interactions of nearly 100 turns within standard 32k context length, effectively addressing the context limitations that constrain existing multi-turn interaction systems.
PDF92October 10, 2025