Imparare ad Allineare, Allineare per Imparare: Un Approccio Unificato per l'Allineamento Auto-Ottimizzato
Learning to Align, Aligning to Learn: A Unified Approach for Self-Optimized Alignment
August 11, 2025
Autori: Haowen Wang, Yun Yue, Zhiling Ye, Shuowen Zhang, Lei Fan, Jiaxin Liang, Jiadi Jiang, Cheng Wei, Jingyuan Deng, Xudong Han, Ji Li, Chunxiao Guo, Peng Wei, Jian Wang, Jinjie Gu
cs.AI
Abstract
Le metodologie di allineamento sono emerse come un percorso critico per potenziare le capacità di allineamento dei modelli linguistici. Mentre il SFT (supervised fine-tuning) accelera la convergenza attraverso un intervento diretto a livello di perdita sui token, la sua efficacia è limitata dalla traiettoria della politica offline. Al contrario, il RL (reinforcement learning) facilita l'ottimizzazione esplorativa della politica, ma soffre di una bassa efficienza campionaria e di una forte dipendenza da modelli base di alta qualità. Per affrontare queste doppie sfide, proponiamo GRAO (Group Relative Alignment Optimization), un framework unificato che sinergizza i rispettivi punti di forza di SFT e RL attraverso tre innovazioni chiave: 1) Una strategia di generazione multi-campione che consente una valutazione comparativa della qualità tramite feedback di ricompensa; 2) Una nuova formulazione della Group Direct Alignment Loss che sfrutta la ponderazione del vantaggio relativo intra-gruppo; 3) Aggiornamenti dei parametri guidati dalla dinamica delle preferenze a coppie e consapevoli dei riferimenti. La nostra analisi teorica stabilisce le garanzie di convergenza di GRAO e i vantaggi in termini di efficienza campionaria rispetto agli approcci convenzionali. Valutazioni complete su complessi compiti di allineamento umano dimostrano la superiorità delle prestazioni di GRAO, con miglioramenti relativi rispettivamente del 57,70%, 17,65%, 7,95% e 5,18% rispetto ai baseline di SFT, DPO, PPO e GRPO. Questo lavoro fornisce sia un framework di allineamento teoricamente fondato che evidenze empiriche per un'evoluzione efficiente delle capacità nei modelli linguistici.
English
Alignment methodologies have emerged as a critical pathway for enhancing
language model alignment capabilities. While SFT (supervised fine-tuning)
accelerates convergence through direct token-level loss intervention, its
efficacy is constrained by offline policy trajectory. In contrast,
RL(reinforcement learning) facilitates exploratory policy optimization, but
suffers from low sample efficiency and stringent dependency on high-quality
base models. To address these dual challenges, we propose GRAO (Group Relative
Alignment Optimization), a unified framework that synergizes the respective
strengths of SFT and RL through three key innovations: 1) A multi-sample
generation strategy enabling comparative quality assessment via reward
feedback; 2) A novel Group Direct Alignment Loss formulation leveraging
intra-group relative advantage weighting; 3) Reference-aware parameter updates
guided by pairwise preference dynamics. Our theoretical analysis establishes
GRAO's convergence guarantees and sample efficiency advantages over
conventional approaches. Comprehensive evaluations across complex human
alignment tasks demonstrate GRAO's superior performance, achieving
57.70\%,17.65\% 7.95\% and 5.18\% relative improvements over SFT, DPO, PPO and
GRPO baselines respectively. This work provides both a theoretically grounded
alignment framework and empirical evidence for efficient capability evolution
in language models.