f-GRPO und darüber hinaus: Divergenzbasierte Reinforcement-Learning-Algorithmen für die allgemeine Ausrichtung von großen Sprachmodellen
f-GRPO and Beyond: Divergence-Based Reinforcement Learning Algorithms for General LLM Alignment
February 5, 2026
papers.authors: Rajdeep Haldar, Lantao Mei, Guang Lin, Yue Xing, Qifan Song
cs.AI
papers.abstract
Aktuelle Forschung zeigt, dass Preference-Alignment(PA)-Ziele als Divergenzschätzer zwischen alignierten (ausgewählten) und nicht-alignierten (abgelehnten) Antwortverteilungen wirken. In dieser Arbeit erweitern wir diese divergenzbasierte Perspektive auf allgemeine Alignment-Settings, wie Reinforcement Learning mit verifizierbaren Belohnungen (RLVR), bei denen nur Umweltbelohnungen verfügbar sind. Innerhalb dieses vereinheitlichten Rahmens schlagen wir f-Group Relative Policy Optimization (f-GRPO), eine Klasse von On-Policy-Reinforcement-Learning, und f-Hybrid Alignment Loss (f-HAL), ein hybrides On-/Off-Policy-Ziel, für das allgemeine Alignment von LLMs basierend auf der variationellen Darstellung von f-Divergenzen vor. Wir liefern theoretische Garantien, dass diese Klassen von Zielen die durchschnittliche Belohnung nach dem Alignment verbessern. Empirisch validieren wir unseren Rahmen sowohl für RLVR- (mathematisches Reasoning) als auch PA-Aufgaben (Safety Alignment) und demonstrieren dabei überlegene Leistung und Flexibilität im Vergleich zu aktuellen Methoden.
English
Recent research shows that Preference Alignment (PA) objectives act as divergence estimators between aligned (chosen) and unaligned (rejected) response distributions. In this work, we extend this divergence-based perspective to general alignment settings, such as reinforcement learning with verifiable rewards (RLVR), where only environmental rewards are available. Within this unified framework, we propose f-Group Relative Policy Optimization (f-GRPO), a class of on-policy reinforcement learning, and f-Hybrid Alignment Loss (f-HAL), a hybrid on/off policy objectives, for general LLM alignment based on variational representation of f-divergences. We provide theoretical guarantees that these classes of objectives improve the average reward after alignment. Empirically, we validate our framework on both RLVR (Math Reasoning) and PA tasks (Safety Alignment), demonstrating superior performance and flexibility compared to current methods.