Optimisation Inverse des Préférences pour le Suivi d'Instructions Complexes
Reverse Preference Optimization for Complex Instruction Following
May 28, 2025
Auteurs: Xiang Huang, Ting-En Lin, Feiteng Fang, Yuchuan Wu, Hangyu Li, Yuzhong Qu, Fei Huang, Yongbin Li
cs.AI
Résumé
Le suivi d'instructions (Instruction Following, IF) est une capacité essentielle pour les grands modèles de langage (Large Language Models, LLMs). Cependant, la gestion d'instructions complexes comportant de multiples contraintes reste un défi. Les méthodes précédentes sélectionnent généralement des paires de préférences en fonction du nombre de contraintes qu'elles satisfont, introduisant ainsi du bruit où les exemples choisis peuvent échouer à respecter certaines contraintes, tandis que les exemples rejetés peuvent exceller sur certains aspects par rapport aux exemples choisis. Pour relever le défi de l'alignement sur plusieurs préférences, nous proposons une méthode simple mais efficace appelée Optimisation Inverse des Préférences (Reverse Preference Optimization, RPO). Elle atténue le bruit dans les paires de préférences en inversant dynamiquement les contraintes au sein de l'instruction pour garantir que la réponse choisie est parfaite, réduisant ainsi la nécessité d'un échantillonnage et d'un filtrage extensifs pour collecter des réponses parfaites. De plus, l'inversion élargit également l'écart entre les réponses choisies et rejetées, clarifiant ainsi la direction de l'optimisation et la rendant plus robuste au bruit. Nous évaluons RPO sur deux benchmarks de suivi d'instructions multi-tours, Sysbench et Multi-IF, démontrant des améliorations moyennes par rapport à la base de référence DPO de 4,6 et 2,5 points (sur Llama-3.1 8B), respectivement. Par ailleurs, RPO s'adapte efficacement à différentes tailles de modèles (de 8B à 70B paramètres), avec le modèle RPO 70B surpassant GPT-4o.
English
Instruction following (IF) is a critical capability for large language models
(LLMs). However, handling complex instructions with multiple constraints
remains challenging. Previous methods typically select preference pairs based
on the number of constraints they satisfy, introducing noise where chosen
examples may fail to follow some constraints and rejected examples may excel in
certain respects over the chosen ones. To address the challenge of aligning
with multiple preferences, we propose a simple yet effective method called
Reverse Preference Optimization (RPO). It mitigates noise in preference pairs
by dynamically reversing the constraints within the instruction to ensure the
chosen response is perfect, alleviating the burden of extensive sampling and
filtering to collect perfect responses. Besides, reversal also enlarges the gap
between chosen and rejected responses, thereby clarifying the optimization
direction and making it more robust to noise. We evaluate RPO on two multi-turn
IF benchmarks, Sysbench and Multi-IF, demonstrating average improvements over
the DPO baseline of 4.6 and 2.5 points (on Llama-3.1 8B), respectively.
Moreover, RPO scales effectively across model sizes (8B to 70B parameters),
with the 70B RPO model surpassing GPT-4o.Summary
AI-Generated Summary