f-GRPO e Além: Algoritmos de Aprendizagem por Reforço Baseados em Divergência para o Alinhamento Geral de LLMs

Resumo

Pesquisas recentes demonstram que os objetivos de Alinhamento de Preferências (AP) atuam como estimadores de divergência entre as distribuições de respostas alinhadas (escolhidas) e não alinhadas (rejeitadas). Neste trabalho, estendemos esta perspectiva baseada em divergência para cenários gerais de alinhamento, como o aprendizado por reforço com recompensas verificáveis (RLVR), onde apenas recompensas ambientais estão disponíveis. Dentro desta estrutura unificada, propomos a Otimização de Política Relativa por Grupo f (f-GRPO), uma classe de aprendizado por reforço *on-policy*, e a Perda de Alinhamento Híbrida f (f-HAL), um objetivo híbrido *on/off-policy*, para o alinhamento geral de LLMs com base na representação variacional de f-divergências. Fornecemos garantias teóricas de que estas classes de objetivos melhoram a recompensa média após o alinhamento. Empiricamente, validamos nossa estrutura em tarefas de RLVR (Raciocínio Matemático) e AP (Alinhamento de Segurança), demonstrando desempenho e flexibilidade superiores em comparação com os métodos atuais.

English

Recent research shows that Preference Alignment (PA) objectives act as divergence estimators between aligned (chosen) and unaligned (rejected) response distributions. In this work, we extend this divergence-based perspective to general alignment settings, such as reinforcement learning with verifiable rewards (RLVR), where only environmental rewards are available. Within this unified framework, we propose f-Group Relative Policy Optimization (f-GRPO), a class of on-policy reinforcement learning, and f-Hybrid Alignment Loss (f-HAL), a hybrid on/off policy objectives, for general LLM alignment based on variational representation of f-divergences. We provide theoretical guarantees that these classes of objectives improve the average reward after alignment. Empirically, we validate our framework on both RLVR (Math Reasoning) and PA tasks (Safety Alignment), demonstrating superior performance and flexibility compared to current methods.

f-GRPO e Além: Algoritmos de Aprendizagem por Reforço Baseados em Divergência para o Alinhamento Geral de LLMs

f-GRPO and Beyond: Divergence-Based Reinforcement Learning Algorithms for General LLM Alignment

Resumo

Support