ChatPaper.aiChatPaper

Ottimizzazione Robusta delle Preferenze tramite Margini Dinamici di Riferimento

Robust Preference Optimization via Dynamic Target Margins

June 4, 2025
Autori: Jie Sun, Junkang Wu, Jiancan Wu, Zhibo Zhu, Xingyu Lu, Jun Zhou, Lintao Ma, Xiang Wang
cs.AI

Abstract

L'allineamento dei Large Language Models (LLM) è cruciale per garantire la loro sicurezza e affidabilità nelle applicazioni pratiche. L'ottimizzazione diretta delle preferenze (Direct Preference Optimization, DPO) è emersa come un metodo efficiente che ottimizza direttamente i modelli utilizzando coppie di preferenze, riducendo significativamente le richieste di risorse. Tuttavia, l'efficacia della DPO dipende fortemente dalla qualità dei dati, che è spesso compromessa dal rumore. In questo lavoro, proponiamo gamma-PO, un algoritmo di ottimizzazione dinamica dei margini di preferenza che regola i margini di ricompensa a livello di coppia. Introducendo una calibrazione dei margini specifica per ogni istanza, gamma-PO priorizza strategicamente le coppie ad alta confidenza (quelle che dimostrano margini di ricompensa più elevati) mentre sopprime il potenziale rumore proveniente da coppie ambigue. Inoltre, gamma-PO è un metodo plug-and-play, compatibile con le varianti della DPO che si basano sul margine di ricompensa tra le coppie di preferenze. Su benchmark come AlpacaEval2 e Arena-Hard, gamma-PO ottiene un miglioramento medio del 4,4% rispetto ad altre baseline, stabilendo nuovi standard per le prestazioni all'avanguardia. Inoltre, gamma-PO richiede modifiche minime al codice e ha un impatto trascurabile sull'efficienza dell'addestramento, rendendolo una soluzione robusta per migliorare l'allineamento dei LLM. I nostri codici sono disponibili all'indirizzo https://github.com/sunjie279/gammaPO{https://github.com/sunjie279/gammaPO}.
English
The alignment of Large Language Models (LLMs) is crucial for ensuring their safety and reliability in practical applications. Direct Preference Optimization (DPO) has emerged as an efficient method that directly optimizes models using preference pairs, significantly reducing resource demands. However, the effectiveness of DPO heavily depends on the data quality, which is frequently compromised by noise. In this work, we propose gamma-PO, a dynamic target margin preference optimization algorithm that adjust reward margins at the pairwise level. By introducing instance-specific margin calibration, gamma-PO strategically prioritizes high-confidence pairs (those demonstrating higher reward margins) while suppressing potential noise from ambiguous pairs. Moreover, gamma-PO is a plug-and-play method, compatible with variants of DPO that rely on reward margin between preference pairs. Across benchmarks such as AlpacaEval2 and Arena-Hard, gamma-PO achieves an average 4.4\% improvement over other baselines, setting new benchmarks for state-of-the-art performance. Additionally, gamma-PO requires minimal code changes and has a negligible impact on training efficiency, making it a robust solution for enhancing LLMs alignment. Our codes are available at https://github.com/sunjie279/gammaPO{https://github.com/sunjie279/gammaPO}.
PDF22June 10, 2025