f-GRPO et au-delà : Algorithmes d'apprentissage par renforcement basés sur la divergence pour l'alignement général des LLM
f-GRPO and Beyond: Divergence-Based Reinforcement Learning Algorithms for General LLM Alignment
February 5, 2026
papers.authors: Rajdeep Haldar, Lantao Mei, Guang Lin, Yue Xing, Qifan Song
cs.AI
papers.abstract
Des recherches récentes montrent que les objectifs d'Alignement des Préférences (AP) agissent comme des estimateurs de divergence entre les distributions de réponses alignées (choisies) et non alignées (rejetées). Dans ce travail, nous étendons cette perspective basée sur la divergence à des cadres d'alignement généraux, tels que l'apprentissage par renforcement avec récompenses vérifiables (RLVR), où seules les récompenses environnementales sont disponibles. Au sein de ce cadre unifié, nous proposons l'Optimisation de Politique Relative par f-Groupe (f-GRPO), une classe d'apprentissage par renforcement sur politique, et la Perte d'Alignement Hybride f (f-HAL), des objectifs hybrides sur/hors politique, pour l'alignement général des LLM basé sur la représentation variationnelle des f-divergences. Nous fournissons des garanties théoriques que ces classes d'objectifs améliorent la récompense moyenne après l'alignement. Empiriquement, nous validons notre cadre sur des tâches de RLVR (Raisonnement Mathématique) et d'AP (Alignement de la Sécurité), démontrant une performance et une flexibilité supérieures par rapport aux méthodes actuelles.
English
Recent research shows that Preference Alignment (PA) objectives act as divergence estimators between aligned (chosen) and unaligned (rejected) response distributions. In this work, we extend this divergence-based perspective to general alignment settings, such as reinforcement learning with verifiable rewards (RLVR), where only environmental rewards are available. Within this unified framework, we propose f-Group Relative Policy Optimization (f-GRPO), a class of on-policy reinforcement learning, and f-Hybrid Alignment Loss (f-HAL), a hybrid on/off policy objectives, for general LLM alignment based on variational representation of f-divergences. We provide theoretical guarantees that these classes of objectives improve the average reward after alignment. Empirically, we validate our framework on both RLVR (Math Reasoning) and PA tasks (Safety Alignment), demonstrating superior performance and flexibility compared to current methods.