DeepSearch: Superar el Cuello de Botella del Aprendizaje por Refuerzo con Recompensas Verificables mediante Búsqueda en Árbol de Montecarlo
DeepSearch: Overcome the Bottleneck of Reinforcement Learning with Verifiable Rewards via Monte Carlo Tree Search
September 29, 2025
Autores: Fang Wu, Weihao Xuan, Heli Qi, Ximing Lu, Aaron Tu, Li Erran Li, Yejin Choi
cs.AI
Resumen
Aunque RLVR se ha convertido en un componente esencial para desarrollar habilidades avanzadas de razonamiento en LLMs, estudios contemporáneos han documentado mesetas de entrenamiento que surgen tras miles de pasos de optimización, mostrando disminuciones notables en las ganancias de rendimiento a pesar del aumento en la inversión computacional. Esta limitación se origina en los patrones de exploración dispersos inherentes a las prácticas actuales de RLVR, donde los modelos dependen de despliegues limitados que a menudo pasan por alto rutas críticas de razonamiento y no logran proporcionar una cobertura sistemática del espacio de soluciones. Presentamos DeepSearch, un marco que integra la Búsqueda de Árbol de Monte Carlo directamente en el entrenamiento de RLVR. A diferencia de los métodos existentes que dependen de la búsqueda en árbol solo durante la inferencia, DeepSearch incorpora la búsqueda estructurada en el ciclo de entrenamiento, permitiendo una exploración sistemática y una asignación de crédito detallada a través de los pasos de razonamiento. Mediante la exploración durante el entrenamiento, DeepSearch aborda el cuello de botella fundamental de la exploración insuficiente, que conduce a mejoras de rendimiento decrecientes tras prolongados pasos de entrenamiento. Nuestras contribuciones incluyen: (1) una estrategia de selección de frontera global que prioriza nodos prometedores en el árbol de búsqueda, (2) selección con orientación basada en entropía que identifica rutas confiables para la supervisión, y (3) entrenamiento adaptativo con búfer de repetición y almacenamiento en caché de soluciones para mayor eficiencia. Los experimentos en benchmarks de razonamiento matemático muestran que DeepSearch alcanza un 62.95% de precisión promedio y establece un nuevo estado del arte para modelos de razonamiento de 1.5B, utilizando 5.7 veces menos horas de GPU que los enfoques de entrenamiento extendido. Estos resultados resaltan la importancia de la exploración estratégica sobre el escalado por fuerza bruta y demuestran el potencial de la innovación algorítmica para avanzar en las metodologías de RLVR. DeepSearch establece una nueva dirección para escalar las capacidades de razonamiento a través de la búsqueda sistemática en lugar de la computación prolongada.
English
Although RLVR has become an essential component for developing advanced
reasoning skills in LLMs, contemporary studies have documented training
plateaus that emerge following thousands of optimization steps, demonstrating
notable decreases in performance gains despite increased computational
investment. This limitation stems from the sparse exploration patterns inherent
in current RLVR practices, where models rely on limited rollouts that often
miss critical reasoning paths and fail to provide systematic coverage of the
solution space. We present DeepSearch, a framework that integrates Monte Carlo
Tree Search directly into RLVR training. In contrast to existing methods that
rely on tree search only at inference, DeepSearch embeds structured search into
the training loop, enabling systematic exploration and fine-grained credit
assignment across reasoning steps. Through training-time exploration,
DeepSearch addresses the fundamental bottleneck of insufficient exploration,
which leads to diminishing performance improvements over prolonged training
steps. Our contributions include: (1) a global frontier selection strategy that
prioritizes promising nodes across the search tree, (2) selection with
entropy-based guidance that identifies confident paths for supervision, and (3)
adaptive replay buffer training with solution caching for efficiency.
Experiments on mathematical reasoning benchmarks show that DeepSearch achieves
62.95% average accuracy and establishes a new state-of-the-art for 1.5B
reasoning models - using 5.7x fewer GPU hours than extended training
approaches. These results highlight the importance of strategic exploration
over brute-force scaling and demonstrate the promise of algorithmic innovation
for advancing RLVR methodologies. DeepSearch establishes a new direction for
scaling reasoning capabilities through systematic search rather than prolonged
computation.