DSDR: Regularización de Diversidad a Doble Escala para la Exploración en el Razonamiento de LLM

Resumen

El aprendizaje por refuerzo con verificadores (RLVR) es un paradigma central para mejorar el razonamiento de los modelos de lenguaje grandes (LLM), sin embargo, los métodos existentes a menudo adolecen de una exploración limitada. Las políticas tienden a colapsar en unos pocos patrones de razonamiento y detienen prematuramente la exploración profunda, mientras que la regularización de entropía convencional introduce solo estocasticidad local y no logra inducir una diversidad significativa a nivel de trayectoria, lo que conduce a señales de aprendizaje débiles e inestables en la optimización de políticas basada en grupos. Proponemos DSDR, un marco de aprendizaje por refuerzo con Regularización de Diversidad a Doble Escala que descompone la diversidad en el razonamiento de los LLM en componentes globales y de acoplamiento. Globalmente, DSDR promueve la diversidad entre las trayectorias de razonamiento correctas para explorar modos de solución distintos. Localmente, aplica una regularización de entropía a nivel de token, invariante a la longitud y restringida a las trayectorias correctas, evitando el colapso de la entropía dentro de cada modo mientras preserva la corrección. Las dos escalas se acoplan mediante un mecanismo de asignación global-a-local que enfatiza la regularización local para las trayectorias correctas más distintivas. Brindamos soporte teórico que muestra que DSDR preserva la corrección óptima bajo una regularización acotada, sostiene señales de aprendizaje informativas en la optimización basada en grupos y produce una regla de acoplamiento global-a-local fundamentada. Los experimentos en múltiples benchmarks de razonamiento demuestran mejoras consistentes en precisión y pass@k, destacando la importancia de la diversidad a doble escala para la exploración profunda en RLVR. El código está disponible en https://github.com/SUSTechBruce/DSDR.

English

Reinforcement learning with verifiers (RLVR) is a central paradigm for improving large language model (LLM) reasoning, yet existing methods often suffer from limited exploration. Policies tend to collapse onto a few reasoning patterns and prematurely stop deep exploration, while conventional entropy regularization introduces only local stochasticity and fails to induce meaningful path-level diversity, leading to weak and unstable learning signals in group-based policy optimization. We propose DSDR, a Dual-Scale Diversity Regularization reinforcement learning framework that decomposes diversity in LLM reasoning into global and coupling components. Globally, DSDR promotes diversity among correct reasoning trajectories to explore distinct solution modes. Locally, it applies a length-invariant, token-level entropy regularization restricted to correct trajectories, preventing entropy collapse within each mode while preserving correctness. The two scales are coupled through a global-to-local allocation mechanism that emphasizes local regularization for more distinctive correct trajectories. We provide theoretical support showing that DSDR preserves optimal correctness under bounded regularization, sustains informative learning signals in group-based optimization, and yields a principled global-to-local coupling rule. Experiments on multiple reasoning benchmarks demonstrate consistent improvements in accuracy and pass@k, highlighting the importance of dual-scale diversity for deep exploration in RLVR. Code is available at https://github.com/SUSTechBruce/DSDR.

DSDR: Regularización de Diversidad a Doble Escala para la Exploración en el Razonamiento de LLM

DSDR: Dual-Scale Diversity Regularization for Exploration in LLM Reasoning

Resumen

Support