DSDR: Двухмасштабная регуляризация разнообразия для исследования в рассуждениях больших языковых моделей

Аннотация

Обучение с подкреплением с верификаторами (RLVR) является ключевой парадигмой для улучшения логических рассуждений больших языковых моделей (LLM), однако существующие методы часто страдают от ограниченного исследования пространства. Политики склонны коллапсировать к нескольким шаблонам рассуждений и преждевременно прекращать глубокое исследование, в то время как традиционная энтропийная регуляризация вносит лишь локальную стохастичность и не позволяет достичь значимого разнообразия на уровне путей рассуждений, что приводит к слабым и нестабильным сигналам обучения в групповой оптимизации политик. Мы предлагаем DSDR, фреймворк обучения с подкреплением с Dual-Scale Diversity Regularization (регуляризацией разнообразия на двух масштабах), который декомпозирует разнообразие в рассуждениях LLM на глобальную и связанную компоненты. Глобально DSDR способствует разнообразию среди корректных траекторий рассуждений для исследования различных режимов решения. Локально он применяет инвариантную к длине энтропийную регуляризацию на уровне токенов, ограниченную корректными траекториями, предотвращая коллапс энтропии внутри каждого режима при сохранении правильности. Два масштаба связаны через механизм распределения "глобальный-к-локальному", который усиливает локальную регуляризацию для более различимых корректных траекторий. Мы предоставляем теоретическое обоснование, показывающее, что DSFR сохраняет оптимальную правильность при ограниченной регуляризации, поддерживает информативные сигналы обучения в групповой оптимизации и дает принципиальное правило связи глобального и локального масштабов. Эксперименты на нескольких наборах данных для проверки рассуждений демонстрируют устойчивое улучшение точности и метрики pass@k, подчеркивая важность двумасштабного разнообразия для глубокого исследования в RLVR. Код доступен по адресу https://github.com/SUSTechBruce/DSDR.

English

Reinforcement learning with verifiers (RLVR) is a central paradigm for improving large language model (LLM) reasoning, yet existing methods often suffer from limited exploration. Policies tend to collapse onto a few reasoning patterns and prematurely stop deep exploration, while conventional entropy regularization introduces only local stochasticity and fails to induce meaningful path-level diversity, leading to weak and unstable learning signals in group-based policy optimization. We propose DSDR, a Dual-Scale Diversity Regularization reinforcement learning framework that decomposes diversity in LLM reasoning into global and coupling components. Globally, DSDR promotes diversity among correct reasoning trajectories to explore distinct solution modes. Locally, it applies a length-invariant, token-level entropy regularization restricted to correct trajectories, preventing entropy collapse within each mode while preserving correctness. The two scales are coupled through a global-to-local allocation mechanism that emphasizes local regularization for more distinctive correct trajectories. We provide theoretical support showing that DSDR preserves optimal correctness under bounded regularization, sustains informative learning signals in group-based optimization, and yields a principled global-to-local coupling rule. Experiments on multiple reasoning benchmarks demonstrate consistent improvements in accuracy and pass@k, highlighting the importance of dual-scale diversity for deep exploration in RLVR. Code is available at https://github.com/SUSTechBruce/DSDR.

DSDR: Двухмасштабная регуляризация разнообразия для исследования в рассуждениях больших языковых моделей

DSDR: Dual-Scale Diversity Regularization for Exploration in LLM Reasoning

Аннотация

Support