DeepSearch: Superare il collo di bottiglia dell'apprendimento per rinforzo con ricompense verificabili tramite ricerca ad albero Monte Carlo
DeepSearch: Overcome the Bottleneck of Reinforcement Learning with Verifiable Rewards via Monte Carlo Tree Search
September 29, 2025
Autori: Fang Wu, Weihao Xuan, Heli Qi, Ximing Lu, Aaron Tu, Li Erran Li, Yejin Choi
cs.AI
Abstract
Sebbene RLVR sia diventato un componente essenziale per sviluppare abilità di ragionamento avanzate nei LLM, studi contemporanei hanno documentato plateau di addestramento che emergono dopo migliaia di passi di ottimizzazione, dimostrando notevoli diminuzioni nei guadagni di prestazioni nonostante l'aumento degli investimenti computazionali. Questa limitazione deriva dai modelli di esplorazione sparsi intrinseci nelle pratiche attuali di RLVR, in cui i modelli si affidano a rollout limitati che spesso perdono percorsi di ragionamento critici e non forniscono una copertura sistematica dello spazio delle soluzioni. Presentiamo DeepSearch, un framework che integra direttamente il Monte Carlo Tree Search nell'addestramento RLVR. A differenza dei metodi esistenti che si basano sulla ricerca ad albero solo durante l'inferenza, DeepSearch incorpora la ricerca strutturata nel ciclo di addestramento, consentendo un'esplorazione sistematica e un'assegnazione del credito granulare tra i passi di ragionamento. Attraverso l'esplorazione durante l'addestramento, DeepSearch affronta il collo di bottiglia fondamentale dell'esplorazione insufficiente, che porta a miglioramenti delle prestazioni decrescenti nel corso di passi di addestramento prolungati. I nostri contributi includono: (1) una strategia di selezione globale delle frontiere che dà priorità ai nodi promettenti nell'albero di ricerca, (2) una selezione con guida basata sull'entropia che identifica percorsi affidabili per la supervisione, e (3) un addestramento con buffer di replay adattivo con memorizzazione delle soluzioni per efficienza. Esperimenti su benchmark di ragionamento matematico mostrano che DeepSearch raggiunge una precisione media del 62,95% e stabilisce un nuovo stato dell'arte per modelli di ragionamento da 1,5B, utilizzando 5,7 volte meno ore di GPU rispetto agli approcci di addestramento esteso. Questi risultati evidenziano l'importanza dell'esplorazione strategica rispetto al ridimensionamento a forza bruta e dimostrano la promessa dell'innovazione algoritmica per avanzare le metodologie RLVR. DeepSearch stabilisce una nuova direzione per scalare le capacità di ragionamento attraverso la ricerca sistematica piuttosto che il calcolo prolungato.
English
Although RLVR has become an essential component for developing advanced
reasoning skills in LLMs, contemporary studies have documented training
plateaus that emerge following thousands of optimization steps, demonstrating
notable decreases in performance gains despite increased computational
investment. This limitation stems from the sparse exploration patterns inherent
in current RLVR practices, where models rely on limited rollouts that often
miss critical reasoning paths and fail to provide systematic coverage of the
solution space. We present DeepSearch, a framework that integrates Monte Carlo
Tree Search directly into RLVR training. In contrast to existing methods that
rely on tree search only at inference, DeepSearch embeds structured search into
the training loop, enabling systematic exploration and fine-grained credit
assignment across reasoning steps. Through training-time exploration,
DeepSearch addresses the fundamental bottleneck of insufficient exploration,
which leads to diminishing performance improvements over prolonged training
steps. Our contributions include: (1) a global frontier selection strategy that
prioritizes promising nodes across the search tree, (2) selection with
entropy-based guidance that identifies confident paths for supervision, and (3)
adaptive replay buffer training with solution caching for efficiency.
Experiments on mathematical reasoning benchmarks show that DeepSearch achieves
62.95% average accuracy and establishes a new state-of-the-art for 1.5B
reasoning models - using 5.7x fewer GPU hours than extended training
approaches. These results highlight the importance of strategic exploration
over brute-force scaling and demonstrate the promise of algorithmic innovation
for advancing RLVR methodologies. DeepSearch establishes a new direction for
scaling reasoning capabilities through systematic search rather than prolonged
computation.