DeepSearch: Überwindung des Engpasses beim Bestärkenden Lernen durch verifizierbare Belohnungen mittels Monte-Carlo-Baumsuche
DeepSearch: Overcome the Bottleneck of Reinforcement Learning with Verifiable Rewards via Monte Carlo Tree Search
September 29, 2025
papers.authors: Fang Wu, Weihao Xuan, Heli Qi, Ximing Lu, Aaron Tu, Li Erran Li, Yejin Choi
cs.AI
papers.abstract
Obwohl RLVR (Reinforcement Learning with Verbal Reasoning) zu einem wesentlichen Bestandteil für die Entwicklung fortgeschrittener Denkfähigkeiten in LLMs (Large Language Models) geworden ist, haben aktuelle Studien Trainingsplateaus dokumentiert, die nach Tausenden von Optimierungsschritten auftreten und deutliche Rückgänge in den Leistungssteigerungen trotz erhöhter Recheninvestitionen zeigen. Diese Einschränkung resultiert aus den spärlichen Explorationsmustern, die den aktuellen RLVR-Praktiken innewohnen, bei denen Modelle auf begrenzte Rollouts angewiesen sind, die oft kritische Denkpfade verfehlen und keine systematische Abdeckung des Lösungsraums bieten. Wir stellen DeepSearch vor, ein Framework, das Monte Carlo Tree Search direkt in das RLVR-Training integriert. Im Gegensatz zu bestehenden Methoden, die Baumsuche nur bei der Inferenz nutzen, integriert DeepSearch strukturierte Suche in den Trainingsloop, wodurch systematische Exploration und fein abgestufte Kreditzuweisung über Denkschritte hinweg ermöglicht wird. Durch Exploration während des Trainings adressiert DeepSearch den grundlegenden Engpass unzureichender Exploration, der zu abnehmenden Leistungsverbesserungen über längere Trainingsschritte führt. Unsere Beiträge umfassen: (1) eine globale Frontier-Auswahlstrategie, die vielversprechende Knoten im Suchbaum priorisiert, (2) Auswahl mit entropiebasierter Führung, die selbstbewusste Pfade für die Überwachung identifiziert, und (3) adaptives Replay-Buffer-Training mit Lösungscaching für Effizienz. Experimente auf mathematischen Denkbenchmarks zeigen, dass DeepSearch eine durchschnittliche Genauigkeit von 62,95 % erreicht und einen neuen State-of-the-Art für 1,5B-Denkmodelle etabliert – bei 5,7-fach geringerer GPU-Zeit im Vergleich zu erweiterten Trainingsansätzen. Diese Ergebnisse unterstreichen die Bedeutung strategischer Exploration gegenüber Brute-Force-Skalierung und demonstrieren das Potenzial algorithmischer Innovation für die Weiterentwicklung von RLVR-Methoden. DeepSearch weist eine neue Richtung für die Skalierung von Denkfähigkeiten durch systematische Suche anstelle von verlängerter Berechnung auf.
English
Although RLVR has become an essential component for developing advanced
reasoning skills in LLMs, contemporary studies have documented training
plateaus that emerge following thousands of optimization steps, demonstrating
notable decreases in performance gains despite increased computational
investment. This limitation stems from the sparse exploration patterns inherent
in current RLVR practices, where models rely on limited rollouts that often
miss critical reasoning paths and fail to provide systematic coverage of the
solution space. We present DeepSearch, a framework that integrates Monte Carlo
Tree Search directly into RLVR training. In contrast to existing methods that
rely on tree search only at inference, DeepSearch embeds structured search into
the training loop, enabling systematic exploration and fine-grained credit
assignment across reasoning steps. Through training-time exploration,
DeepSearch addresses the fundamental bottleneck of insufficient exploration,
which leads to diminishing performance improvements over prolonged training
steps. Our contributions include: (1) a global frontier selection strategy that
prioritizes promising nodes across the search tree, (2) selection with
entropy-based guidance that identifies confident paths for supervision, and (3)
adaptive replay buffer training with solution caching for efficiency.
Experiments on mathematical reasoning benchmarks show that DeepSearch achieves
62.95% average accuracy and establishes a new state-of-the-art for 1.5B
reasoning models - using 5.7x fewer GPU hours than extended training
approaches. These results highlight the importance of strategic exploration
over brute-force scaling and demonstrate the promise of algorithmic innovation
for advancing RLVR methodologies. DeepSearch establishes a new direction for
scaling reasoning capabilities through systematic search rather than prolonged
computation.