ChatPaper.aiChatPaper

DSDR:大規模言語モデルの推論における探索のためのデュアルスケール多様性正則化

DSDR: Dual-Scale Diversity Regularization for Exploration in LLM Reasoning

February 23, 2026
著者: Zhongwei Wan, Yun Shen, Zhihao Dou, Donghao Zhou, Yu Zhang, Xin Wang, Hui Shen, Jing Xiong, Chaofan Tao, Zixuan Zhong, Peizhou Huang, Mi Zhang
cs.AI

要旨

検証器を用いた強化学習(RLVR)は大規模言語モデル(LLM)の推論能力向上における中心的なパラダイムであるが、既存手法は探索の限界に悩まされることが多い。方策は少数の推論パターンに収束しがちで、深い探索を早期に終了させてしまう。従来のエントロピー正則化は局所的な確率性しか導入できず、有意義なパスレベルの多様性を誘起できないため、グループベースの方策最適化において弱く不安定な学習信号が生じる。我々はDSDRを提案する。これはLLM推論における多様性を大域的および結合的要素に分解する二重尺度多様性正則化強化学習フレームワークである。大域的には、DSDRは正しい推論軌道間の多様性を促進し、異なる解決モードを探索する。局所的には、正しい軌道に限定した長さ不変のトークンレベルエントロピー正則化を適用し、各モード内でのエントロピー崩壊を防ぎつつ正確性を保持する。二つの尺度は、より特徴的な正解軌道に対して局所的正則化を重点化する大域-局所割り当てメカニズムにより結合される。理論的裏付けとして、DSDRが有界正則化下で最適な正確性を保持すること、グループベース最適化において有益な学習信号を持続させること、そして原理に基づいた大域-局所結合則を導出することを示す。複数の推論ベンチマークにおける実験では、精度とpass@kの一貫した改善が実証され、RLVRにおける深い探索に対する二重尺度多様性の重要性が明らかとなった。コードはhttps://github.com/SUSTechBruce/DSDRで公開されている。
English
Reinforcement learning with verifiers (RLVR) is a central paradigm for improving large language model (LLM) reasoning, yet existing methods often suffer from limited exploration. Policies tend to collapse onto a few reasoning patterns and prematurely stop deep exploration, while conventional entropy regularization introduces only local stochasticity and fails to induce meaningful path-level diversity, leading to weak and unstable learning signals in group-based policy optimization. We propose DSDR, a Dual-Scale Diversity Regularization reinforcement learning framework that decomposes diversity in LLM reasoning into global and coupling components. Globally, DSDR promotes diversity among correct reasoning trajectories to explore distinct solution modes. Locally, it applies a length-invariant, token-level entropy regularization restricted to correct trajectories, preventing entropy collapse within each mode while preserving correctness. The two scales are coupled through a global-to-local allocation mechanism that emphasizes local regularization for more distinctive correct trajectories. We provide theoretical support showing that DSDR preserves optimal correctness under bounded regularization, sustains informative learning signals in group-based optimization, and yields a principled global-to-local coupling rule. Experiments on multiple reasoning benchmarks demonstrate consistent improvements in accuracy and pass@k, highlighting the importance of dual-scale diversity for deep exploration in RLVR. Code is available at https://github.com/SUSTechBruce/DSDR.
PDF101February 25, 2026