DSDR: Dual-Scale Diversitätsregularisierung zur Exploration beim LLM-Schlussfolgern

Zusammenfassung

Verstärkungslernen mit Verifizierern (RLVR) ist ein zentrales Paradigma zur Verbesserung des logischen Schließens großer Sprachmodelle (LLM), doch bestehende Methoden leiden oft unter begrenzter Exploration. Die Strategien kollabieren häufig auf wenige Denkmuster und beenden die tiefgehende Exploration vorzeitig, während konventionelle Entropie-Regularisierung nur lokale Stochastizität einführt und keine bedeutungsvolle Pfadvielfalt auf Ebene der Lösungswege induzieren kann. Dies führt zu schwachen und instabilen Lernsignalen in gruppenbasierter Strategienoptimierung. Wir schlagen DSDR vor, ein Reinforcement-Learning-Framework mit Dual-Scale-Diversity-Regularisierung, das die Vielfalt beim LLM-Schließen in globale und gekoppelte Komponenten zerlegt. Global fördert DSDR die Vielfalt unter korrekten Lösungswegen, um unterschiedliche Lösungsmodi zu erkunden. Lokal wendet es eine längeninvariante, tokenweise Entropie-Regularisierung an, die auf korrekte Pfade beschränkt ist, um einen Entropiekollaps innerhalb jedes Modus zu verhindern und gleichzeitig die Korrektheit zu bewahren. Die beiden Skalen werden durch einen Global-zu-Lokal-Zuteilungsmechanismus gekoppelt, der die lokale Regularisierung für unterscheidbarere korrekte Pfade betont. Wir liefern theoretische Unterstützung, die zeigt, dass DSDR unter beschränkter Regularisierung die optimale Korrektheit bewahrt, informative Lernsignale in gruppenbasierter Optimierung aufrechterhält und eine prinzipiengeleitete Global-zu-Lokal-Kopplungsregel liefert. Experimente auf mehreren Benchmarks für logisches Schließen demonstrieren konsistente Verbesserungen in Genauigkeit und Pass@k, was die Bedeutung dualskaliger Vielfalt für tiefgehende Exploration in RLVR unterstreicht. Code ist verfügbar unter https://github.com/SUSTechBruce/DSDR.

English

Reinforcement learning with verifiers (RLVR) is a central paradigm for improving large language model (LLM) reasoning, yet existing methods often suffer from limited exploration. Policies tend to collapse onto a few reasoning patterns and prematurely stop deep exploration, while conventional entropy regularization introduces only local stochasticity and fails to induce meaningful path-level diversity, leading to weak and unstable learning signals in group-based policy optimization. We propose DSDR, a Dual-Scale Diversity Regularization reinforcement learning framework that decomposes diversity in LLM reasoning into global and coupling components. Globally, DSDR promotes diversity among correct reasoning trajectories to explore distinct solution modes. Locally, it applies a length-invariant, token-level entropy regularization restricted to correct trajectories, preventing entropy collapse within each mode while preserving correctness. The two scales are coupled through a global-to-local allocation mechanism that emphasizes local regularization for more distinctive correct trajectories. We provide theoretical support showing that DSDR preserves optimal correctness under bounded regularization, sustains informative learning signals in group-based optimization, and yields a principled global-to-local coupling rule. Experiments on multiple reasoning benchmarks demonstrate consistent improvements in accuracy and pass@k, highlighting the importance of dual-scale diversity for deep exploration in RLVR. Code is available at https://github.com/SUSTechBruce/DSDR.

DSDR: Dual-Scale Diversitätsregularisierung zur Exploration beim LLM-Schlussfolgern

DSDR: Dual-Scale Diversity Regularization for Exploration in LLM Reasoning

Zusammenfassung

Support