Imparare ad Allineare, Allineare per Imparare: Un Approccio Unificato per l'Allineamento Auto-Ottimizzato

Abstract

Le metodologie di allineamento sono emerse come un percorso critico per potenziare le capacità di allineamento dei modelli linguistici. Mentre il SFT (supervised fine-tuning) accelera la convergenza attraverso un intervento diretto a livello di perdita sui token, la sua efficacia è limitata dalla traiettoria della politica offline. Al contrario, il RL (reinforcement learning) facilita l'ottimizzazione esplorativa della politica, ma soffre di una bassa efficienza campionaria e di una forte dipendenza da modelli base di alta qualità. Per affrontare queste doppie sfide, proponiamo GRAO (Group Relative Alignment Optimization), un framework unificato che sinergizza i rispettivi punti di forza di SFT e RL attraverso tre innovazioni chiave: 1) Una strategia di generazione multi-campione che consente una valutazione comparativa della qualità tramite feedback di ricompensa; 2) Una nuova formulazione della Group Direct Alignment Loss che sfrutta la ponderazione del vantaggio relativo intra-gruppo; 3) Aggiornamenti dei parametri guidati dalla dinamica delle preferenze a coppie e consapevoli dei riferimenti. La nostra analisi teorica stabilisce le garanzie di convergenza di GRAO e i vantaggi in termini di efficienza campionaria rispetto agli approcci convenzionali. Valutazioni complete su complessi compiti di allineamento umano dimostrano la superiorità delle prestazioni di GRAO, con miglioramenti relativi rispettivamente del 57,70%, 17,65%, 7,95% e 5,18% rispetto ai baseline di SFT, DPO, PPO e GRPO. Questo lavoro fornisce sia un framework di allineamento teoricamente fondato che evidenze empiriche per un'evoluzione efficiente delle capacità nei modelli linguistici.

English

Alignment methodologies have emerged as a critical pathway for enhancing language model alignment capabilities. While SFT (supervised fine-tuning) accelerates convergence through direct token-level loss intervention, its efficacy is constrained by offline policy trajectory. In contrast, RL(reinforcement learning) facilitates exploratory policy optimization, but suffers from low sample efficiency and stringent dependency on high-quality base models. To address these dual challenges, we propose GRAO (Group Relative Alignment Optimization), a unified framework that synergizes the respective strengths of SFT and RL through three key innovations: 1) A multi-sample generation strategy enabling comparative quality assessment via reward feedback; 2) A novel Group Direct Alignment Loss formulation leveraging intra-group relative advantage weighting; 3) Reference-aware parameter updates guided by pairwise preference dynamics. Our theoretical analysis establishes GRAO's convergence guarantees and sample efficiency advantages over conventional approaches. Comprehensive evaluations across complex human alignment tasks demonstrate GRAO's superior performance, achieving 57.70\%,17.65\% 7.95\% and 5.18\% relative improvements over SFT, DPO, PPO and GRPO baselines respectively. This work provides both a theoretically grounded alignment framework and empirical evidence for efficient capability evolution in language models.

Imparare ad Allineare, Allineare per Imparare: Un Approccio Unificato per l'Allineamento Auto-Ottimizzato

Learning to Align, Aligning to Learn: A Unified Approach for Self-Optimized Alignment

Abstract

Support