Stabilizzazione dell'Apprendimento per Rinforzo per Modelli Linguistici di Diffusione

Abstract

Il Group Relative Policy Optimization (GRPO) è estremamente efficace per i modelli linguistici autoregressivi (AR) dopo l'addestramento, ma la sua applicazione diretta ai modelli linguistici di grandi dimensioni basati su diffusione (dLLM) spesso innesca un collasso della reward. Identifichiamo due fonti di incompatibilità. In primo luogo, il GRPO si basa su rapporti di importanza definiti dalle probabilità di sequenza, che sono intrattabili nei dLLM e devono essere stimati (ad esempio, tramite proxy di verosimiglianza basati su ELBO o su campo medio), producendo rapporti intrinsecamente rumorosi. In secondo luogo, la formulazione standard del GRPO non è progettata per rapporti stimati: il suo clipping condizionale può essere anomalamente bypassato dal rumore di stima indipendente dal modello, producendo picchi di gradiente, mentre la sua normalizzazione a dimensione di gruppo fissa amplifica le fluttuazioni di magnitudine del gradiente sotto stime di rapporto ad alta varianza. Dimostriamo che questi effetti formano un ciclo di instabilità auto-rinforzante che guida la deriva della policy e aumenta ulteriormente la varianza del rapporto. Per interrompere questo ciclo, proponiamo StableDRL, una riformulazione del GRPO studiata per i dLLM che utilizza (i) il clipping incondizionato per sopprimere i picchi indotti dagli outlier e (ii) l'auto-normalizzazione per vincolare gli aggiornamenti all'interno dello scafo convesso dei gradienti per campione. Estendiamo inoltre StableDRL ai modelli di diffusione basati su blocchi tramite un meccanismo di attenzione a gradini.

English

Group Relative Policy Optimization (GRPO) is highly effective for post-training autoregressive (AR) language models, yet its direct application to diffusion large language models (dLLMs) often triggers reward collapse. We identify two sources of incompatibility. First, GRPO relies on importance ratios defined by sequence probabilities, which are intractable in dLLMs and must be estimated (e.g., via ELBO-based or mean-field likelihood proxies), yielding inherently noisy ratios. Second, standard GRPO's formulation is not designed for estimated ratios: its conditional clipping can be anomalously bypassed by model-agnostic estimation noise, producing gradient spikes, while its fixed group-size normalization amplifies gradient-magnitude fluctuations under high-variance ratio estimates. We show these effects form a self-reinforcing instability loop that drives policy drift and further increases ratio variance. To break this loop, we propose StableDRL, a reformulation of GRPO tailored for dLLMs that uses (i) unconditional clipping to suppress outlier-induced spikes and (ii) self-normalization to constrain updates within the convex hull of per-sample gradients. We further extend StableDRL to block-wise diffusion models via a staircase attention mechanism.

Stabilizzazione dell'Apprendimento per Rinforzo per Modelli Linguistici di Diffusione

Stabilizing Reinforcement Learning for Diffusion Language Models

Abstract

Support