DSDR: Regularização de Diversidade em Dupla Escala para Exploração no Raciocínio de LLMs

Resumo

O aprendizado por reforço com verificadores (RLVR) é um paradigma central para melhorar o raciocínio de grandes modelos de linguagem (LLMs), no entanto, os métodos existentes frequentemente sofrem com exploração limitada. As políticas tendem a colapsar em poucos padrões de raciocínio e a parar prematuramente a exploração profunda, enquanto a regularização de entropia convencional introduz apenas estocasticidade local e falha em induzir diversidade significativa a nível de trajetória, levando a sinais de aprendizado fracos e instáveis na otimização de políticas baseada em grupos. Propomos o DSDR, uma estrutura de aprendizado por reforço com Regularização de Diversidade em Dupla Escala que decompõe a diversidade no raciocínio de LLMs em componentes global e de acoplamento. Globalmente, o DSDR promove a diversidade entre trajetórias de raciocínio corretas para explorar modos de solução distintos. Localmente, aplica uma regularização de entropia a nível de token, invariante ao comprimento e restrita a trajetórias corretas, prevenindo o colapso da entropia dentro de cada modo, enquanto preserva a correção. As duas escalas são acopladas através de um mecanismo de alocação global-para-local que enfatiza a regularização local para trajetórias corretas mais distintas. Fornecemos suporte teórico mostrando que o DSDR preserva a correção ótima sob regularização limitada, sustenta sinais de aprendizado informativos na otimização baseada em grupos e produz uma regra de acoplamento global-para-local fundamentada. Experimentos em múltiplos benchmarks de raciocínio demonstram melhorias consistentes em precisão e pass@k, destacando a importância da diversidade em dupla escala para a exploração profunda no RLVR. O código está disponível em https://github.com/SUSTechBruce/DSDR.

English

Reinforcement learning with verifiers (RLVR) is a central paradigm for improving large language model (LLM) reasoning, yet existing methods often suffer from limited exploration. Policies tend to collapse onto a few reasoning patterns and prematurely stop deep exploration, while conventional entropy regularization introduces only local stochasticity and fails to induce meaningful path-level diversity, leading to weak and unstable learning signals in group-based policy optimization. We propose DSDR, a Dual-Scale Diversity Regularization reinforcement learning framework that decomposes diversity in LLM reasoning into global and coupling components. Globally, DSDR promotes diversity among correct reasoning trajectories to explore distinct solution modes. Locally, it applies a length-invariant, token-level entropy regularization restricted to correct trajectories, preventing entropy collapse within each mode while preserving correctness. The two scales are coupled through a global-to-local allocation mechanism that emphasizes local regularization for more distinctive correct trajectories. We provide theoretical support showing that DSDR preserves optimal correctness under bounded regularization, sustains informative learning signals in group-based optimization, and yields a principled global-to-local coupling rule. Experiments on multiple reasoning benchmarks demonstrate consistent improvements in accuracy and pass@k, highlighting the importance of dual-scale diversity for deep exploration in RLVR. Code is available at https://github.com/SUSTechBruce/DSDR.