E-GRPO: Passi ad Alta Entropia Guidano l'Apprendimento per Rinforzo Efficace nei Modelli di Flusso

Abstract

I recenti progressi nell'apprendimento per rinforzo hanno migliorato i modelli di flow matching nell'allineamento alle preferenze umane. Sebbene il campionamento stocastico consenta l'esplorazione delle direzioni di denoising, i metodi esistenti che ottimizzano su più passi di denoising soffrono di segnali di ricompensa sparsi e ambigui. Osserviamo che i passi ad alta entropia permettono un'esplorazione più efficiente ed efficace, mentre i passi a bassa entropia producono roll-out indistinguibili. A tal fine, proponiamo E-GRPO, un'ottimizzazione relativa di gruppo della politica consapevole dell'entropia, per aumentare l'entropia dei passi di campionamento SDE. Poiché l'integrazione delle equazioni differenziali stocastiche soffre di segnali di ricompensa ambigui a causa della stocasticità derivante da più passi, uniamo specificamente passi consecutivi a bassa entropia per formare un unico passo ad alta entropia per il campionamento SDE, applicando contemporaneamente il campionamento ODE sugli altri passi. Sulla base di ciò, introduciamo il vantaggio normalizzato di gruppo multi-passo, che calcola i vantaggi relativi di gruppo all'interno di campioni che condividono lo stesso passo consolidato di denoising SDE. I risultati sperimentali in diversi contesti di ricompensa hanno dimostrato l'efficacia dei nostri metodi.

English

Recent reinforcement learning has enhanced the flow matching models on human preference alignment. While stochastic sampling enables the exploration of denoising directions, existing methods which optimize over multiple denoising steps suffer from sparse and ambiguous reward signals. We observe that the high entropy steps enable more efficient and effective exploration while the low entropy steps result in undistinguished roll-outs. To this end, we propose E-GRPO, an entropy aware Group Relative Policy Optimization to increase the entropy of SDE sampling steps. Since the integration of stochastic differential equations suffer from ambiguous reward signals due to stochasticity from multiple steps, we specifically merge consecutive low entropy steps to formulate one high entropy step for SDE sampling, while applying ODE sampling on other steps. Building upon this, we introduce multi-step group normalized advantage, which computes group-relative advantages within samples sharing the same consolidated SDE denoising step. Experimental results on different reward settings have demonstrated the effectiveness of our methods.

E-GRPO: Passi ad Alta Entropia Guidano l'Apprendimento per Rinforzo Efficace nei Modelli di Flusso

E-GRPO: High Entropy Steps Drive Effective Reinforcement Learning for Flow Models

Abstract

Support