ChatPaper.aiChatPaper

DeepSearch: Superare il collo di bottiglia dell'apprendimento per rinforzo con ricompense verificabili tramite ricerca ad albero Monte Carlo

DeepSearch: Overcome the Bottleneck of Reinforcement Learning with Verifiable Rewards via Monte Carlo Tree Search

September 29, 2025
Autori: Fang Wu, Weihao Xuan, Heli Qi, Ximing Lu, Aaron Tu, Li Erran Li, Yejin Choi
cs.AI

Abstract

Sebbene RLVR sia diventato un componente essenziale per sviluppare abilità di ragionamento avanzate nei LLM, studi contemporanei hanno documentato plateau di addestramento che emergono dopo migliaia di passi di ottimizzazione, dimostrando notevoli diminuzioni nei guadagni di prestazioni nonostante l'aumento degli investimenti computazionali. Questa limitazione deriva dai modelli di esplorazione sparsi intrinseci nelle pratiche attuali di RLVR, in cui i modelli si affidano a rollout limitati che spesso perdono percorsi di ragionamento critici e non forniscono una copertura sistematica dello spazio delle soluzioni. Presentiamo DeepSearch, un framework che integra direttamente il Monte Carlo Tree Search nell'addestramento RLVR. A differenza dei metodi esistenti che si basano sulla ricerca ad albero solo durante l'inferenza, DeepSearch incorpora la ricerca strutturata nel ciclo di addestramento, consentendo un'esplorazione sistematica e un'assegnazione del credito granulare tra i passi di ragionamento. Attraverso l'esplorazione durante l'addestramento, DeepSearch affronta il collo di bottiglia fondamentale dell'esplorazione insufficiente, che porta a miglioramenti delle prestazioni decrescenti nel corso di passi di addestramento prolungati. I nostri contributi includono: (1) una strategia di selezione globale delle frontiere che dà priorità ai nodi promettenti nell'albero di ricerca, (2) una selezione con guida basata sull'entropia che identifica percorsi affidabili per la supervisione, e (3) un addestramento con buffer di replay adattivo con memorizzazione delle soluzioni per efficienza. Esperimenti su benchmark di ragionamento matematico mostrano che DeepSearch raggiunge una precisione media del 62,95% e stabilisce un nuovo stato dell'arte per modelli di ragionamento da 1,5B, utilizzando 5,7 volte meno ore di GPU rispetto agli approcci di addestramento esteso. Questi risultati evidenziano l'importanza dell'esplorazione strategica rispetto al ridimensionamento a forza bruta e dimostrano la promessa dell'innovazione algoritmica per avanzare le metodologie RLVR. DeepSearch stabilisce una nuova direzione per scalare le capacità di ragionamento attraverso la ricerca sistematica piuttosto che il calcolo prolungato.
English
Although RLVR has become an essential component for developing advanced reasoning skills in LLMs, contemporary studies have documented training plateaus that emerge following thousands of optimization steps, demonstrating notable decreases in performance gains despite increased computational investment. This limitation stems from the sparse exploration patterns inherent in current RLVR practices, where models rely on limited rollouts that often miss critical reasoning paths and fail to provide systematic coverage of the solution space. We present DeepSearch, a framework that integrates Monte Carlo Tree Search directly into RLVR training. In contrast to existing methods that rely on tree search only at inference, DeepSearch embeds structured search into the training loop, enabling systematic exploration and fine-grained credit assignment across reasoning steps. Through training-time exploration, DeepSearch addresses the fundamental bottleneck of insufficient exploration, which leads to diminishing performance improvements over prolonged training steps. Our contributions include: (1) a global frontier selection strategy that prioritizes promising nodes across the search tree, (2) selection with entropy-based guidance that identifies confident paths for supervision, and (3) adaptive replay buffer training with solution caching for efficiency. Experiments on mathematical reasoning benchmarks show that DeepSearch achieves 62.95% average accuracy and establishes a new state-of-the-art for 1.5B reasoning models - using 5.7x fewer GPU hours than extended training approaches. These results highlight the importance of strategic exploration over brute-force scaling and demonstrate the promise of algorithmic innovation for advancing RLVR methodologies. DeepSearch establishes a new direction for scaling reasoning capabilities through systematic search rather than prolonged computation.
PDF1333October 2, 2025