DeepSearch: Superando o Gargalo do Aprendizado por Reforço com Recompensas Verificáveis via Busca em Árvore de Monte Carlo

Resumo

Embora o RLVR tenha se tornado um componente essencial para o desenvolvimento de habilidades avançadas de raciocínio em LLMs, estudos contemporâneos documentaram platôs de treinamento que surgem após milhares de etapas de otimização, demonstrando reduções notáveis nos ganhos de desempenho, apesar do aumento do investimento computacional. Essa limitação decorre dos padrões esparsos de exploração inerentes às práticas atuais de RLVR, onde os modelos dependem de rollouts limitados que frequentemente perdem caminhos críticos de raciocínio e falham em fornecer uma cobertura sistemática do espaço de soluções. Apresentamos o DeepSearch, um framework que integra a Busca em Árvore de Monte Carlo diretamente no treinamento de RLVR. Em contraste com os métodos existentes que dependem da busca em árvore apenas na inferência, o DeepSearch incorpora a busca estruturada no loop de treinamento, permitindo uma exploração sistemática e uma atribuição de crédito refinada entre as etapas de raciocínio. Por meio da exploração durante o treinamento, o DeepSearch aborda o gargalo fundamental da exploração insuficiente, que leva a melhorias de desempenho decrescentes ao longo de etapas prolongadas de treinamento. Nossas contribuições incluem: (1) uma estratégia de seleção de fronteira global que prioriza nós promissores em toda a árvore de busca, (2) seleção com orientação baseada em entropia que identifica caminhos confiantes para supervisão, e (3) treinamento adaptativo de buffer de replay com cache de soluções para eficiência. Experimentos em benchmarks de raciocínio matemático mostram que o DeepSearch alcança 62,95% de precisão média e estabelece um novo estado da arte para modelos de raciocínio de 1,5B - utilizando 5,7x menos horas de GPU do que abordagens de treinamento estendido. Esses resultados destacam a importância da exploração estratégica em relação ao escalonamento por força bruta e demonstram a promessa da inovação algorítmica para avançar as metodologias de RLVR. O DeepSearch estabelece uma nova direção para escalar as capacidades de raciocínio por meio de busca sistemática, em vez de computação prolongada.

English

Although RLVR has become an essential component for developing advanced reasoning skills in LLMs, contemporary studies have documented training plateaus that emerge following thousands of optimization steps, demonstrating notable decreases in performance gains despite increased computational investment. This limitation stems from the sparse exploration patterns inherent in current RLVR practices, where models rely on limited rollouts that often miss critical reasoning paths and fail to provide systematic coverage of the solution space. We present DeepSearch, a framework that integrates Monte Carlo Tree Search directly into RLVR training. In contrast to existing methods that rely on tree search only at inference, DeepSearch embeds structured search into the training loop, enabling systematic exploration and fine-grained credit assignment across reasoning steps. Through training-time exploration, DeepSearch addresses the fundamental bottleneck of insufficient exploration, which leads to diminishing performance improvements over prolonged training steps. Our contributions include: (1) a global frontier selection strategy that prioritizes promising nodes across the search tree, (2) selection with entropy-based guidance that identifies confident paths for supervision, and (3) adaptive replay buffer training with solution caching for efficiency. Experiments on mathematical reasoning benchmarks show that DeepSearch achieves 62.95% average accuracy and establishes a new state-of-the-art for 1.5B reasoning models - using 5.7x fewer GPU hours than extended training approaches. These results highlight the importance of strategic exploration over brute-force scaling and demonstrate the promise of algorithmic innovation for advancing RLVR methodologies. DeepSearch establishes a new direction for scaling reasoning capabilities through systematic search rather than prolonged computation.

DeepSearch: Superando o Gargalo do Aprendizado por Reforço com Recompensas Verificáveis via Busca em Árvore de Monte Carlo

DeepSearch: Overcome the Bottleneck of Reinforcement Learning with Verifiable Rewards via Monte Carlo Tree Search

Resumo

Support