f-GRPO e oltre: algoritmi di apprendimento per rinforzo basati sulla divergenza per l'allineamento generale di LLM

Abstract

Recenti ricerche dimostrano che gli obiettivi di Allineamento delle Preferenze (PA) agiscono come stimatori della divergenza tra distribuzioni di risposte allineate (scelte) e non allineate (scartate). In questo lavoro, estendiamo questa prospettiva basata sulla divergenza a contesti generali di allineamento, come il reinforcement learning con ricompense verificabili (RLVR), dove sono disponibili solo ricompense ambientali. All'interno di questo quadro unificato, proponiamo f-Group Relative Policy Optimization (f-GRPO), una classe di algoritmi di reinforcement learning on-policy, e f-Hybrid Alignment Loss (f-HAL), obiettivi ibridi on/off-policy, per l'allineamento generale di LLM basati sulla rappresentazione variazionale delle f-divergenze. Forniamo garanzie teoriche che queste classi di obiettivi migliorino la ricompensa media dopo l'allineamento. Empiricamente, convalidiamo il nostro framework sia su compiti RLVR (Ragionamento Matematico) che PA (Allineamento alla Sicurezza), dimostrando prestazioni e flessibilità superiori rispetto ai metodi attuali.

English

Recent research shows that Preference Alignment (PA) objectives act as divergence estimators between aligned (chosen) and unaligned (rejected) response distributions. In this work, we extend this divergence-based perspective to general alignment settings, such as reinforcement learning with verifiable rewards (RLVR), where only environmental rewards are available. Within this unified framework, we propose f-Group Relative Policy Optimization (f-GRPO), a class of on-policy reinforcement learning, and f-Hybrid Alignment Loss (f-HAL), a hybrid on/off policy objectives, for general LLM alignment based on variational representation of f-divergences. We provide theoretical guarantees that these classes of objectives improve the average reward after alignment. Empirically, we validate our framework on both RLVR (Math Reasoning) and PA tasks (Safety Alignment), demonstrating superior performance and flexibility compared to current methods.

f-GRPO e oltre: algoritmi di apprendimento per rinforzo basati sulla divergenza per l'allineamento generale di LLM

f-GRPO and Beyond: Divergence-Based Reinforcement Learning Algorithms for General LLM Alignment

Abstract

Support