DSDR : Régularisation par Diversité à Double Échelle pour l'Exploration dans le Raisonnement des LLM

Résumé

L'apprentissage par renforcement avec vérificateurs (RLVR) est un paradigme central pour améliorer le raisonnement des grands modèles de langage (LLM), mais les méthodes existantes souffrent souvent d'une exploration limitée. Les politiques ont tendance à s'effondrer sur quelques schémas de raisonnement et à arrêter prématurément l'exploration profonde, tandis que la régularisation par entropie conventionnelle n'introduit qu'une stochasticité locale et échoue à induire une diversité significative au niveau des chemins, conduisant à des signaux d'apprentissage faibles et instables dans l'optimisation de politique par groupes. Nous proposons DSDR, un cadre d'apprentissage par renforcement à Régularisation de la Diversité Double Échelle qui décompose la diversité du raisonnement des LLM en composantes globale et couplée. Globalement, DSDR favorise la diversité parmi les trajectoires de raisonnement correctes pour explorer des modes de solution distincts. Localement, il applique une régularisation par entropie au niveau des tokens, invariante à la longueur et restreinte aux trajectoires correctes, empêchant l'effondrement de l'entropie au sein de chaque mode tout en préservant l'exactitude. Les deux échelles sont couplées via un mécanisme d'allocation global-vers-local qui accentue la régularisation locale pour les trajectoires correctes plus distinctives. Nous fournissons un support théorique montrant que DSDR préserve l'exactitude optimale sous régularisation bornée, maintient des signaux d'apprentissage informatifs dans l'optimisation par groupes, et produit une règle de couplage global-vers-local principée. Les expériences sur plusieurs benchmarks de raisonnement démontrent des améliorations constantes en précision et pass@k, soulignant l'importance de la diversité double échelle pour l'exploration profonde en RLVR. Le code est disponible à l'adresse https://github.com/SUSTechBruce/DSDR.

English

Reinforcement learning with verifiers (RLVR) is a central paradigm for improving large language model (LLM) reasoning, yet existing methods often suffer from limited exploration. Policies tend to collapse onto a few reasoning patterns and prematurely stop deep exploration, while conventional entropy regularization introduces only local stochasticity and fails to induce meaningful path-level diversity, leading to weak and unstable learning signals in group-based policy optimization. We propose DSDR, a Dual-Scale Diversity Regularization reinforcement learning framework that decomposes diversity in LLM reasoning into global and coupling components. Globally, DSDR promotes diversity among correct reasoning trajectories to explore distinct solution modes. Locally, it applies a length-invariant, token-level entropy regularization restricted to correct trajectories, preventing entropy collapse within each mode while preserving correctness. The two scales are coupled through a global-to-local allocation mechanism that emphasizes local regularization for more distinctive correct trajectories. We provide theoretical support showing that DSDR preserves optimal correctness under bounded regularization, sustains informative learning signals in group-based optimization, and yields a principled global-to-local coupling rule. Experiments on multiple reasoning benchmarks demonstrate consistent improvements in accuracy and pass@k, highlighting the importance of dual-scale diversity for deep exploration in RLVR. Code is available at https://github.com/SUSTechBruce/DSDR.

DSDR : Régularisation par Diversité à Double Échelle pour l'Exploration dans le Raisonnement des LLM

DSDR: Dual-Scale Diversity Regularization for Exploration in LLM Reasoning

Résumé

Support