A Escolha da Divergência: Um Elemento Negligenciado para Mitigar o Colapso da Diversidade no Aprendizado por Reforço com Recompensas Verificáveis
The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward
September 9, 2025
Autores: Long Li, Jiaran Hao, Jason Klein Liu, Zhijian Zhou, Xiaoyu Tan, Wei Chu, Zhe Wang, Shirui Pan, Chao Qu, Yuan Qi
cs.AI
Resumo
Um paradoxo central no ajuste fino de Modelos de Linguagem de Grande Escala (LLMs) com Aprendizado por Reforço com Recompensa Verificável (RLVR) é a frequente degradação do desempenho em múltiplas tentativas (Pass@k), apesar das melhorias na precisão de tentativa única (Pass@1). Isso geralmente é acompanhado por esquecimento catastrófico, onde os modelos perdem habilidades previamente adquiridas. Embora vários métodos tenham sido propostos, a escolha e a função do termo de divergência têm sido surpreendentemente pouco examinadas como uma solução proativa. Argumentamos que os objetivos padrão do RLVR — tanto aqueles que usam a divergência reversa de KL, que busca o modo, quanto aqueles que dispensam completamente um termo de divergência — carecem de um mecanismo crucial para a retenção de conhecimento. A KL reversa acelera ativamente essa deterioração ao estreitar a política, enquanto sua ausência não oferece nenhuma salvaguarda contra o desvio do modelo de sua base de conhecimento diversificada. Propomos uma mudança fundamental de perspectiva: usar o próprio termo de divergência como a solução. Nosso framework, Aprendizado por Reforço Híbrido de Preservação de Diversidade (DPH-RL), aproveita as divergências f de cobertura de massa (como a KL direta e a divergência JS) para funcionar como um mecanismo de revisão. Ao referenciar continuamente a política inicial, essa abordagem força o modelo a manter uma ampla cobertura de soluções. Experimentos extensos em geração de matemática e SQL demonstram que o DPH-RL não apenas resolve a degradação do Pass@k, mas melhora tanto o Pass@1 quanto o Pass@k dentro e fora do domínio. Além disso, o DPH-RL é mais eficiente em termos de treinamento porque calcula a divergência f usando funções geradoras, exigindo apenas amostragem da política inicial e nenhum modelo de referência online. Nosso trabalho destaca um eixo crucial e negligenciado para melhorar o RLVR, demonstrando que a seleção adequada de uma medida de divergência é uma ferramenta poderosa para construir modelos de raciocínio mais gerais e diversos.
English
A central paradox in fine-tuning Large Language Models (LLMs) with
Reinforcement Learning with Verifiable Reward (RLVR) is the frequent
degradation of multi-attempt performance (Pass@k) despite improvements in
single-attempt accuracy (Pass@1). This is often accompanied by catastrophic
forgetting, where models lose previously acquired skills. While various methods
have been proposed, the choice and function of the divergence term have been
surprisingly unexamined as a proactive solution. We argue that standard RLVR
objectives -- both those using the mode-seeking reverse KL-divergence and those
forgoing a divergence term entirely -- lack a crucial mechanism for knowledge
retention. The reverse-KL actively accelerates this decay by narrowing the
policy, while its absence provides no safeguard against the model drifting from
its diverse knowledge base. We propose a fundamental shift in perspective:
using the divergence term itself as the solution. Our framework,
Diversity-Preserving Hybrid RL (DPH-RL), leverages mass-covering f-divergences
(like forward-KL and JS-divergence) to function as a rehearsal mechanism. By
continuously referencing the initial policy, this approach forces the model to
maintain broad solution coverage. Extensive experiments on math and SQL
generation demonstrate that DPH-RL not only resolves the Pass@k degradation but
improves both Pass@1 and Pass@k in- and out-of-domain. Additionally, DPH-RL is
more training-efficient because it computes f-divergence using generator
functions, requiring only sampling from the initial policy and no online
reference model. Our work highlights a crucial, overlooked axis for improving
RLVR, demonstrating that the proper selection of a divergence measure is a
powerful tool for building more general and diverse reasoning models.