A Escolha da Divergência: Um Elemento Negligenciado para Mitigar o Colapso da Diversidade no Aprendizado por Reforço com Recompensas Verificáveis

Resumo

Um paradoxo central no ajuste fino de Modelos de Linguagem de Grande Escala (LLMs) com Aprendizado por Reforço com Recompensa Verificável (RLVR) é a frequente degradação do desempenho em múltiplas tentativas (Pass@k), apesar das melhorias na precisão de tentativa única (Pass@1). Isso geralmente é acompanhado por esquecimento catastrófico, onde os modelos perdem habilidades previamente adquiridas. Embora vários métodos tenham sido propostos, a escolha e a função do termo de divergência têm sido surpreendentemente pouco examinadas como uma solução proativa. Argumentamos que os objetivos padrão do RLVR — tanto aqueles que usam a divergência reversa de KL, que busca o modo, quanto aqueles que dispensam completamente um termo de divergência — carecem de um mecanismo crucial para a retenção de conhecimento. A KL reversa acelera ativamente essa deterioração ao estreitar a política, enquanto sua ausência não oferece nenhuma salvaguarda contra o desvio do modelo de sua base de conhecimento diversificada. Propomos uma mudança fundamental de perspectiva: usar o próprio termo de divergência como a solução. Nosso framework, Aprendizado por Reforço Híbrido de Preservação de Diversidade (DPH-RL), aproveita as divergências f de cobertura de massa (como a KL direta e a divergência JS) para funcionar como um mecanismo de revisão. Ao referenciar continuamente a política inicial, essa abordagem força o modelo a manter uma ampla cobertura de soluções. Experimentos extensos em geração de matemática e SQL demonstram que o DPH-RL não apenas resolve a degradação do Pass@k, mas melhora tanto o Pass@1 quanto o Pass@k dentro e fora do domínio. Além disso, o DPH-RL é mais eficiente em termos de treinamento porque calcula a divergência f usando funções geradoras, exigindo apenas amostragem da política inicial e nenhum modelo de referência online. Nosso trabalho destaca um eixo crucial e negligenciado para melhorar o RLVR, demonstrando que a seleção adequada de uma medida de divergência é uma ferramenta poderosa para construir modelos de raciocínio mais gerais e diversos.

English

A central paradox in fine-tuning Large Language Models (LLMs) with Reinforcement Learning with Verifiable Reward (RLVR) is the frequent degradation of multi-attempt performance (Pass@k) despite improvements in single-attempt accuracy (Pass@1). This is often accompanied by catastrophic forgetting, where models lose previously acquired skills. While various methods have been proposed, the choice and function of the divergence term have been surprisingly unexamined as a proactive solution. We argue that standard RLVR objectives -- both those using the mode-seeking reverse KL-divergence and those forgoing a divergence term entirely -- lack a crucial mechanism for knowledge retention. The reverse-KL actively accelerates this decay by narrowing the policy, while its absence provides no safeguard against the model drifting from its diverse knowledge base. We propose a fundamental shift in perspective: using the divergence term itself as the solution. Our framework, Diversity-Preserving Hybrid RL (DPH-RL), leverages mass-covering f-divergences (like forward-KL and JS-divergence) to function as a rehearsal mechanism. By continuously referencing the initial policy, this approach forces the model to maintain broad solution coverage. Extensive experiments on math and SQL generation demonstrate that DPH-RL not only resolves the Pass@k degradation but improves both Pass@1 and Pass@k in- and out-of-domain. Additionally, DPH-RL is more training-efficient because it computes f-divergence using generator functions, requiring only sampling from the initial policy and no online reference model. Our work highlights a crucial, overlooked axis for improving RLVR, demonstrating that the proper selection of a divergence measure is a powerful tool for building more general and diverse reasoning models.

A Escolha da Divergência: Um Elemento Negligenciado para Mitigar o Colapso da Diversidade no Aprendizado por Reforço com Recompensas Verificáveis

The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward

Resumo

Support