f-GRPO 및 그 이상: 일반 LLM 정렬을 위한 발산 기반 강화 학습 알고리즘
f-GRPO and Beyond: Divergence-Based Reinforcement Learning Algorithms for General LLM Alignment
February 5, 2026
저자: Rajdeep Haldar, Lantao Mei, Guang Lin, Yue Xing, Qifan Song
cs.AI
초록
최근 연구에 따르면 선호도 정렬(PA) 목적 함수는 정렬된(선택된) 응답 분포와 비정렬된(거부된) 응답 분포 간의 발산 추정기 역할을 합니다. 본 연구에서는 이러한 발산 기반 관점을 검증 가능한 보상을 활용한 강화 학습(RLVR)과 같이 환경적 보상만 사용 가능한 일반적인 정렬 설정으로 확장합니다. 우리는 이 통합 프레임워크 내에서 f-발산의 변분 표현을 기반으로 일반적인 LLM 정렬을 위한 온-정책 강화 학습 클래스인 f-그룹 상대 정책 최적화(f-GRPO)와 하이브리드 온/오프-정책 목적 함수인 f-하이브리드 정렬 손실(f-HAL)을 제안합니다. 우리는 이러한 목적 함수 클래스들이 정렬 후 평균 보상을 향상시킨다는 이론적 보장을 제공합니다. 실험적으로 RLVR(수학적 추론) 및 PA(안전성 정렬) 과제 모두에서 우리의 프레임워크를 검증하며, 기존 방법 대비 향상된 성능과 유연성을 입증합니다.
English
Recent research shows that Preference Alignment (PA) objectives act as divergence estimators between aligned (chosen) and unaligned (rejected) response distributions. In this work, we extend this divergence-based perspective to general alignment settings, such as reinforcement learning with verifiable rewards (RLVR), where only environmental rewards are available. Within this unified framework, we propose f-Group Relative Policy Optimization (f-GRPO), a class of on-policy reinforcement learning, and f-Hybrid Alignment Loss (f-HAL), a hybrid on/off policy objectives, for general LLM alignment based on variational representation of f-divergences. We provide theoretical guarantees that these classes of objectives improve the average reward after alignment. Empirically, we validate our framework on both RLVR (Math Reasoning) and PA tasks (Safety Alignment), demonstrating superior performance and flexibility compared to current methods.