La Scelta della Divergenza: Una Chiave Trascurata per Mitigare il Collasso della Diversità nell'Apprendimento per Rinforzo con Ricompensa Verificabile
The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward
September 9, 2025
Autori: Long Li, Jiaran Hao, Jason Klein Liu, Zhijian Zhou, Xiaoyu Tan, Wei Chu, Zhe Wang, Shirui Pan, Chao Qu, Yuan Qi
cs.AI
Abstract
Un paradosso centrale nel fine-tuning dei Large Language Models (LLMs) con il Reinforcement Learning con Ricompensa Verificabile (RLVR) è il frequente deterioramento delle prestazioni su più tentativi (Pass@k) nonostante i miglioramenti nell'accuratezza su singolo tentativo (Pass@1). Questo è spesso accompagnato da un oblio catastrofico, in cui i modelli perdono abilità precedentemente acquisite. Sebbene siano stati proposti vari metodi, la scelta e la funzione del termine di divergenza sono state sorprendentemente poco esaminate come soluzione proattiva. Sosteniamo che gli obiettivi standard dell'RLVR — sia quelli che utilizzano la divergenza KL inversa orientata alla moda, sia quelli che rinunciano del tutto a un termine di divergenza — mancano di un meccanismo cruciale per la conservazione della conoscenza. La KL inversa accelera attivamente questo decadimento restringendo la politica, mentre la sua assenza non fornisce alcuna salvaguardia contro la deriva del modello dalla sua base di conoscenza diversificata. Proponiamo un cambiamento fondamentale di prospettiva: utilizzare il termine di divergenza stesso come soluzione. Il nostro framework, Diversity-Preserving Hybrid RL (DPH-RL), sfrutta le divergenze f di copertura di massa (come la KL diretta e la divergenza JS) per fungere da meccanismo di ripasso. Riferendosi continuamente alla politica iniziale, questo approccio costringe il modello a mantenere un'ampia copertura delle soluzioni. Esperimenti estesi sulla generazione di matematica e SQL dimostrano che DPH-RL non solo risolve il deterioramento di Pass@k, ma migliora sia Pass@1 che Pass@k all'interno e all'esterno del dominio. Inoltre, DPH-RL è più efficiente in termini di addestramento perché calcola la divergenza f utilizzando funzioni generatrici, richiedendo solo campionamenti dalla politica iniziale e nessun modello di riferimento online. Il nostro lavoro evidenzia un asse cruciale e trascurato per migliorare l'RLVR, dimostrando che la corretta selezione di una misura di divergenza è uno strumento potente per costruire modelli di ragionamento più generali e diversificati.
English
A central paradox in fine-tuning Large Language Models (LLMs) with
Reinforcement Learning with Verifiable Reward (RLVR) is the frequent
degradation of multi-attempt performance (Pass@k) despite improvements in
single-attempt accuracy (Pass@1). This is often accompanied by catastrophic
forgetting, where models lose previously acquired skills. While various methods
have been proposed, the choice and function of the divergence term have been
surprisingly unexamined as a proactive solution. We argue that standard RLVR
objectives -- both those using the mode-seeking reverse KL-divergence and those
forgoing a divergence term entirely -- lack a crucial mechanism for knowledge
retention. The reverse-KL actively accelerates this decay by narrowing the
policy, while its absence provides no safeguard against the model drifting from
its diverse knowledge base. We propose a fundamental shift in perspective:
using the divergence term itself as the solution. Our framework,
Diversity-Preserving Hybrid RL (DPH-RL), leverages mass-covering f-divergences
(like forward-KL and JS-divergence) to function as a rehearsal mechanism. By
continuously referencing the initial policy, this approach forces the model to
maintain broad solution coverage. Extensive experiments on math and SQL
generation demonstrate that DPH-RL not only resolves the Pass@k degradation but
improves both Pass@1 and Pass@k in- and out-of-domain. Additionally, DPH-RL is
more training-efficient because it computes f-divergence using generator
functions, requiring only sampling from the initial policy and no online
reference model. Our work highlights a crucial, overlooked axis for improving
RLVR, demonstrating that the proper selection of a divergence measure is a
powerful tool for building more general and diverse reasoning models.