DeepSearch: Superando o Gargalo do Aprendizado por Reforço com Recompensas Verificáveis via Busca em Árvore de Monte Carlo
DeepSearch: Overcome the Bottleneck of Reinforcement Learning with Verifiable Rewards via Monte Carlo Tree Search
September 29, 2025
Autores: Fang Wu, Weihao Xuan, Heli Qi, Ximing Lu, Aaron Tu, Li Erran Li, Yejin Choi
cs.AI
Resumo
Embora o RLVR tenha se tornado um componente essencial para o desenvolvimento de habilidades avançadas de raciocínio em LLMs, estudos contemporâneos documentaram platôs de treinamento que surgem após milhares de etapas de otimização, demonstrando reduções notáveis nos ganhos de desempenho, apesar do aumento do investimento computacional. Essa limitação decorre dos padrões esparsos de exploração inerentes às práticas atuais de RLVR, onde os modelos dependem de rollouts limitados que frequentemente perdem caminhos críticos de raciocínio e falham em fornecer uma cobertura sistemática do espaço de soluções. Apresentamos o DeepSearch, um framework que integra a Busca em Árvore de Monte Carlo diretamente no treinamento de RLVR. Em contraste com os métodos existentes que dependem da busca em árvore apenas na inferência, o DeepSearch incorpora a busca estruturada no loop de treinamento, permitindo uma exploração sistemática e uma atribuição de crédito refinada entre as etapas de raciocínio. Por meio da exploração durante o treinamento, o DeepSearch aborda o gargalo fundamental da exploração insuficiente, que leva a melhorias de desempenho decrescentes ao longo de etapas prolongadas de treinamento. Nossas contribuições incluem: (1) uma estratégia de seleção de fronteira global que prioriza nós promissores em toda a árvore de busca, (2) seleção com orientação baseada em entropia que identifica caminhos confiantes para supervisão, e (3) treinamento adaptativo de buffer de replay com cache de soluções para eficiência. Experimentos em benchmarks de raciocínio matemático mostram que o DeepSearch alcança 62,95% de precisão média e estabelece um novo estado da arte para modelos de raciocínio de 1,5B - utilizando 5,7x menos horas de GPU do que abordagens de treinamento estendido. Esses resultados destacam a importância da exploração estratégica em relação ao escalonamento por força bruta e demonstram a promessa da inovação algorítmica para avançar as metodologias de RLVR. O DeepSearch estabelece uma nova direção para escalar as capacidades de raciocínio por meio de busca sistemática, em vez de computação prolongada.
English
Although RLVR has become an essential component for developing advanced
reasoning skills in LLMs, contemporary studies have documented training
plateaus that emerge following thousands of optimization steps, demonstrating
notable decreases in performance gains despite increased computational
investment. This limitation stems from the sparse exploration patterns inherent
in current RLVR practices, where models rely on limited rollouts that often
miss critical reasoning paths and fail to provide systematic coverage of the
solution space. We present DeepSearch, a framework that integrates Monte Carlo
Tree Search directly into RLVR training. In contrast to existing methods that
rely on tree search only at inference, DeepSearch embeds structured search into
the training loop, enabling systematic exploration and fine-grained credit
assignment across reasoning steps. Through training-time exploration,
DeepSearch addresses the fundamental bottleneck of insufficient exploration,
which leads to diminishing performance improvements over prolonged training
steps. Our contributions include: (1) a global frontier selection strategy that
prioritizes promising nodes across the search tree, (2) selection with
entropy-based guidance that identifies confident paths for supervision, and (3)
adaptive replay buffer training with solution caching for efficiency.
Experiments on mathematical reasoning benchmarks show that DeepSearch achieves
62.95% average accuracy and establishes a new state-of-the-art for 1.5B
reasoning models - using 5.7x fewer GPU hours than extended training
approaches. These results highlight the importance of strategic exploration
over brute-force scaling and demonstrate the promise of algorithmic innovation
for advancing RLVR methodologies. DeepSearch establishes a new direction for
scaling reasoning capabilities through systematic search rather than prolonged
computation.