DeepSearch: Overkom het knelpunt van Reinforcement Learning met verifieerbare beloningen via Monte Carlo Boom Zoeken
DeepSearch: Overcome the Bottleneck of Reinforcement Learning with Verifiable Rewards via Monte Carlo Tree Search
September 29, 2025
Auteurs: Fang Wu, Weihao Xuan, Heli Qi, Ximing Lu, Aaron Tu, Li Erran Li, Yejin Choi
cs.AI
Samenvatting
Hoewel RLVR een essentieel onderdeel is geworden voor het ontwikkelen van geavanceerde redeneervaardigheden in LLM's, hebben recente studies trainingsplateaus gedocumenteerd die ontstaan na duizenden optimalisatiestappen, wat opmerkelijke afnames in prestatieverbeteringen laat zien ondanks een grotere computationele investering. Deze beperking komt voort uit de schaarse verkenningspatronen die inherent zijn aan de huidige RLVR-praktijken, waarbij modellen vertrouwen op beperkte rollouts die vaak kritieke redeneerpaden missen en geen systematische dekking van de oplossingsruimte bieden. Wij presenteren DeepSearch, een raamwerk dat Monte Carlo Tree Search direct integreert in RLVR-training. In tegenstelling tot bestaande methoden die alleen tijdens inferentie gebruikmaken van boomzoeken, integreert DeepSearch gestructureerd zoeken in de trainingslus, wat systematische exploratie en fijnmazige krediettoewijzing over redeneerstappen mogelijk maakt. Door exploratie tijdens de training adresseert DeepSearch het fundamentele knelpunt van onvoldoende exploratie, wat leidt tot afnemende prestatieverbeteringen bij langdurige trainingsstappen. Onze bijdragen omvatten: (1) een globale frontier-selectiestrategie die veelbelovende knooppunten in de zoekboom prioriteert, (2) selectie met entropie-gestuurde begeleiding die zelfverzekerde paden identificeert voor supervisie, en (3) adaptieve replay buffer-training met oplossingscaching voor efficiëntie. Experimenten op wiskundige redeneerbenchmarks tonen aan dat DeepSearch een gemiddelde nauwkeurigheid van 62,95% bereikt en een nieuwe state-of-the-art vestigt voor 1,5B redeneermodellen - met 5,7x minder GPU-uren dan uitgebreide trainingsbenaderingen. Deze resultaten benadrukken het belang van strategische exploratie boven brute-force schaling en tonen de belofte van algoritmische innovatie voor het bevorderen van RLVR-methodologieën. DeepSearch zet een nieuwe richting uit voor het schalen van redeneervaardigheden door middel van systematisch zoeken in plaats van langdurige berekeningen.
English
Although RLVR has become an essential component for developing advanced
reasoning skills in LLMs, contemporary studies have documented training
plateaus that emerge following thousands of optimization steps, demonstrating
notable decreases in performance gains despite increased computational
investment. This limitation stems from the sparse exploration patterns inherent
in current RLVR practices, where models rely on limited rollouts that often
miss critical reasoning paths and fail to provide systematic coverage of the
solution space. We present DeepSearch, a framework that integrates Monte Carlo
Tree Search directly into RLVR training. In contrast to existing methods that
rely on tree search only at inference, DeepSearch embeds structured search into
the training loop, enabling systematic exploration and fine-grained credit
assignment across reasoning steps. Through training-time exploration,
DeepSearch addresses the fundamental bottleneck of insufficient exploration,
which leads to diminishing performance improvements over prolonged training
steps. Our contributions include: (1) a global frontier selection strategy that
prioritizes promising nodes across the search tree, (2) selection with
entropy-based guidance that identifies confident paths for supervision, and (3)
adaptive replay buffer training with solution caching for efficiency.
Experiments on mathematical reasoning benchmarks show that DeepSearch achieves
62.95% average accuracy and establishes a new state-of-the-art for 1.5B
reasoning models - using 5.7x fewer GPU hours than extended training
approaches. These results highlight the importance of strategic exploration
over brute-force scaling and demonstrate the promise of algorithmic innovation
for advancing RLVR methodologies. DeepSearch establishes a new direction for
scaling reasoning capabilities through systematic search rather than prolonged
computation.