DeepSearch : Surmonter le goulot d'étranglement de l'apprentissage par renforcement avec des récompenses vérifiables via la recherche arborescente de Monte Carlo
DeepSearch: Overcome the Bottleneck of Reinforcement Learning with Verifiable Rewards via Monte Carlo Tree Search
September 29, 2025
papers.authors: Fang Wu, Weihao Xuan, Heli Qi, Ximing Lu, Aaron Tu, Li Erran Li, Yejin Choi
cs.AI
papers.abstract
Bien que le RLVR soit devenu un composant essentiel pour développer des compétences de raisonnement avancées dans les LLM, les études contemporaines ont documenté des plateaux d’apprentissage qui apparaissent après des milliers d’étapes d’optimisation, montrant des diminutions notables des gains de performance malgré un investissement computationnel accru. Cette limitation découle des schémas d’exploration parcimonieux inhérents aux pratiques actuelles du RLVR, où les modèles s’appuient sur des déploiements limités qui manquent souvent des chemins de raisonnement critiques et ne parviennent pas à couvrir systématiquement l’espace des solutions. Nous présentons DeepSearch, un cadre qui intègre directement la recherche arborescente de Monte Carlo dans l’entraînement du RLVR. Contrairement aux méthodes existantes qui utilisent la recherche arborescente uniquement lors de l’inférence, DeepSearch intègre une recherche structurée dans la boucle d’entraînement, permettant une exploration systématique et une attribution fine des crédits à travers les étapes de raisonnement. Grâce à l’exploration pendant l’entraînement, DeepSearch résout le goulot d’étranglement fondamental de l’exploration insuffisante, qui entraîne une diminution des améliorations de performance au fil des étapes d’entraînement prolongées. Nos contributions incluent : (1) une stratégie de sélection de frontière globale qui priorise les nœuds prometteurs dans l’arbre de recherche, (2) une sélection guidée par l’entropie qui identifie les chemins confiants pour la supervision, et (3) un entraînement adaptatif avec tampon de relecture et mise en cache des solutions pour l’efficacité. Les expériences sur des benchmarks de raisonnement mathématique montrent que DeepSearch atteint une précision moyenne de 62,95 % et établit un nouvel état de l’art pour les modèles de raisonnement de 1,5 milliard de paramètres, en utilisant 5,7 fois moins d’heures GPU que les approches d’entraînement prolongé. Ces résultats soulignent l’importance d’une exploration stratégique par rapport à un passage à l’échelle brutale et démontrent le potentiel de l’innovation algorithmique pour faire progresser les méthodologies du RLVR. DeepSearch ouvre une nouvelle direction pour l’extension des capacités de raisonnement grâce à une recherche systématique plutôt qu’à un calcul prolongé.
English
Although RLVR has become an essential component for developing advanced
reasoning skills in LLMs, contemporary studies have documented training
plateaus that emerge following thousands of optimization steps, demonstrating
notable decreases in performance gains despite increased computational
investment. This limitation stems from the sparse exploration patterns inherent
in current RLVR practices, where models rely on limited rollouts that often
miss critical reasoning paths and fail to provide systematic coverage of the
solution space. We present DeepSearch, a framework that integrates Monte Carlo
Tree Search directly into RLVR training. In contrast to existing methods that
rely on tree search only at inference, DeepSearch embeds structured search into
the training loop, enabling systematic exploration and fine-grained credit
assignment across reasoning steps. Through training-time exploration,
DeepSearch addresses the fundamental bottleneck of insufficient exploration,
which leads to diminishing performance improvements over prolonged training
steps. Our contributions include: (1) a global frontier selection strategy that
prioritizes promising nodes across the search tree, (2) selection with
entropy-based guidance that identifies confident paths for supervision, and (3)
adaptive replay buffer training with solution caching for efficiency.
Experiments on mathematical reasoning benchmarks show that DeepSearch achieves
62.95% average accuracy and establishes a new state-of-the-art for 1.5B
reasoning models - using 5.7x fewer GPU hours than extended training
approaches. These results highlight the importance of strategic exploration
over brute-force scaling and demonstrate the promise of algorithmic innovation
for advancing RLVR methodologies. DeepSearch establishes a new direction for
scaling reasoning capabilities through systematic search rather than prolonged
computation.