ChatPaper.aiChatPaper

Otimização Robusta de Preferências via Margens de Alvo Dinâmicas

Robust Preference Optimization via Dynamic Target Margins

June 4, 2025
Autores: Jie Sun, Junkang Wu, Jiancan Wu, Zhibo Zhu, Xingyu Lu, Jun Zhou, Lintao Ma, Xiang Wang
cs.AI

Resumo

O alinhamento de Modelos de Linguagem de Grande Escala (LLMs) é crucial para garantir sua segurança e confiabilidade em aplicações práticas. A Otimização de Preferência Direta (DPO) surgiu como um método eficiente que otimiza diretamente os modelos usando pares de preferência, reduzindo significativamente as demandas de recursos. No entanto, a eficácia da DPO depende fortemente da qualidade dos dados, que frequentemente é comprometida por ruídos. Neste trabalho, propomos o gamma-PO, um algoritmo de otimização de preferência com margem dinâmica que ajusta as margens de recompensa no nível de pares. Ao introduzir uma calibração de margem específica para cada instância, o gamma-PO prioriza estrategicamente pares de alta confiança (aqueles que demonstram margens de recompensa mais altas) enquanto suprime o ruído potencial de pares ambíguos. Além disso, o gamma-PO é um método plug-and-play, compatível com variantes da DPO que dependem da margem de recompensa entre pares de preferência. Em benchmarks como AlpacaEval2 e Arena-Hard, o gamma-PO alcança uma melhoria média de 4,4% em relação a outras baselines, estabelecendo novos padrões para o desempenho de última geração. Adicionalmente, o gamma-PO requer mudanças mínimas de código e tem um impacto insignificante na eficiência do treinamento, tornando-o uma solução robusta para aprimorar o alinhamento de LLMs. Nossos códigos estão disponíveis em https://github.com/sunjie279/gammaPO{https://github.com/sunjie279/gammaPO}.
English
The alignment of Large Language Models (LLMs) is crucial for ensuring their safety and reliability in practical applications. Direct Preference Optimization (DPO) has emerged as an efficient method that directly optimizes models using preference pairs, significantly reducing resource demands. However, the effectiveness of DPO heavily depends on the data quality, which is frequently compromised by noise. In this work, we propose gamma-PO, a dynamic target margin preference optimization algorithm that adjust reward margins at the pairwise level. By introducing instance-specific margin calibration, gamma-PO strategically prioritizes high-confidence pairs (those demonstrating higher reward margins) while suppressing potential noise from ambiguous pairs. Moreover, gamma-PO is a plug-and-play method, compatible with variants of DPO that rely on reward margin between preference pairs. Across benchmarks such as AlpacaEval2 and Arena-Hard, gamma-PO achieves an average 4.4\% improvement over other baselines, setting new benchmarks for state-of-the-art performance. Additionally, gamma-PO requires minimal code changes and has a negligible impact on training efficiency, making it a robust solution for enhancing LLMs alignment. Our codes are available at https://github.com/sunjie279/gammaPO{https://github.com/sunjie279/gammaPO}.
PDF22June 10, 2025