ChatPaper.aiChatPaper

DeepSearch: Преодоление узкого места в обучении с подкреплением с помощью проверяемых вознаграждений через поиск по дереву Монте-Карло

DeepSearch: Overcome the Bottleneck of Reinforcement Learning with Verifiable Rewards via Monte Carlo Tree Search

September 29, 2025
Авторы: Fang Wu, Weihao Xuan, Heli Qi, Ximing Lu, Aaron Tu, Li Erran Li, Yejin Choi
cs.AI

Аннотация

Хотя RLVR стал важным компонентом для развития продвинутых навыков рассуждения в больших языковых моделях (LLM), современные исследования зафиксировали плато в обучении, возникающее после тысяч шагов оптимизации, что демонстрирует заметное снижение прироста производительности, несмотря на увеличение вычислительных затрат. Это ограничение связано с разреженными паттернами исследования, присущими текущим практикам RLVR, где модели полагаются на ограниченные прогоны, которые часто упускают ключевые пути рассуждений и не обеспечивают систематического покрытия пространства решений. Мы представляем DeepSearch — фреймворк, который интегрирует метод Монте-Карло для поиска по дереву (MCTS) непосредственно в обучение RLVR. В отличие от существующих методов, использующих поиск по дереву только на этапе вывода, DeepSearch встраивает структурированный поиск в цикл обучения, обеспечивая систематическое исследование и точное распределение кредита по шагам рассуждений. Благодаря исследованию на этапе обучения, DeepSearch устраняет фундаментальное узкое место, связанное с недостаточным исследованием, которое приводит к снижению улучшений производительности при длительном обучении. Наши вклады включают: (1) стратегию выбора глобальных границ, которая выделяет перспективные узлы в дереве поиска, (2) выбор с использованием энтропийного руководства, который идентифицирует уверенные пути для контроля, и (3) адаптивное обучение с использованием буфера воспроизведения и кэширования решений для повышения эффективности. Эксперименты на бенчмарках математического рассуждения показывают, что DeepSearch достигает средней точности 62,95% и устанавливает новый уровень state-of-the-art для моделей рассуждений на 1,5 млрд параметров, используя в 5,7 раз меньше GPU-часов, чем подходы с расширенным обучением. Эти результаты подчеркивают важность стратегического исследования по сравнению с масштабированием методом "грубой силы" и демонстрируют потенциал алгоритмических инноваций для развития методологий RLVR. DeepSearch задает новое направление для масштабирования возможностей рассуждений через систематический поиск, а не за счет длительных вычислений.
English
Although RLVR has become an essential component for developing advanced reasoning skills in LLMs, contemporary studies have documented training plateaus that emerge following thousands of optimization steps, demonstrating notable decreases in performance gains despite increased computational investment. This limitation stems from the sparse exploration patterns inherent in current RLVR practices, where models rely on limited rollouts that often miss critical reasoning paths and fail to provide systematic coverage of the solution space. We present DeepSearch, a framework that integrates Monte Carlo Tree Search directly into RLVR training. In contrast to existing methods that rely on tree search only at inference, DeepSearch embeds structured search into the training loop, enabling systematic exploration and fine-grained credit assignment across reasoning steps. Through training-time exploration, DeepSearch addresses the fundamental bottleneck of insufficient exploration, which leads to diminishing performance improvements over prolonged training steps. Our contributions include: (1) a global frontier selection strategy that prioritizes promising nodes across the search tree, (2) selection with entropy-based guidance that identifies confident paths for supervision, and (3) adaptive replay buffer training with solution caching for efficiency. Experiments on mathematical reasoning benchmarks show that DeepSearch achieves 62.95% average accuracy and establishes a new state-of-the-art for 1.5B reasoning models - using 5.7x fewer GPU hours than extended training approaches. These results highlight the importance of strategic exploration over brute-force scaling and demonstrate the promise of algorithmic innovation for advancing RLVR methodologies. DeepSearch establishes a new direction for scaling reasoning capabilities through systematic search rather than prolonged computation.
PDF1243October 2, 2025