Optimisation Inverse des Préférences pour le Suivi d'Instructions Complexes

papers.abstract

Le suivi d'instructions (Instruction Following, IF) est une capacité essentielle pour les grands modèles de langage (Large Language Models, LLMs). Cependant, la gestion d'instructions complexes comportant de multiples contraintes reste un défi. Les méthodes précédentes sélectionnent généralement des paires de préférences en fonction du nombre de contraintes qu'elles satisfont, introduisant ainsi du bruit où les exemples choisis peuvent échouer à respecter certaines contraintes, tandis que les exemples rejetés peuvent exceller sur certains aspects par rapport aux exemples choisis. Pour relever le défi de l'alignement sur plusieurs préférences, nous proposons une méthode simple mais efficace appelée Optimisation Inverse des Préférences (Reverse Preference Optimization, RPO). Elle atténue le bruit dans les paires de préférences en inversant dynamiquement les contraintes au sein de l'instruction pour garantir que la réponse choisie est parfaite, réduisant ainsi la nécessité d'un échantillonnage et d'un filtrage extensifs pour collecter des réponses parfaites. De plus, l'inversion élargit également l'écart entre les réponses choisies et rejetées, clarifiant ainsi la direction de l'optimisation et la rendant plus robuste au bruit. Nous évaluons RPO sur deux benchmarks de suivi d'instructions multi-tours, Sysbench et Multi-IF, démontrant des améliorations moyennes par rapport à la base de référence DPO de 4,6 et 2,5 points (sur Llama-3.1 8B), respectivement. Par ailleurs, RPO s'adapte efficacement à différentes tailles de modèles (de 8B à 70B paramètres), avec le modèle RPO 70B surpassant GPT-4o.

English

Instruction following (IF) is a critical capability for large language models (LLMs). However, handling complex instructions with multiple constraints remains challenging. Previous methods typically select preference pairs based on the number of constraints they satisfy, introducing noise where chosen examples may fail to follow some constraints and rejected examples may excel in certain respects over the chosen ones. To address the challenge of aligning with multiple preferences, we propose a simple yet effective method called Reverse Preference Optimization (RPO). It mitigates noise in preference pairs by dynamically reversing the constraints within the instruction to ensure the chosen response is perfect, alleviating the burden of extensive sampling and filtering to collect perfect responses. Besides, reversal also enlarges the gap between chosen and rejected responses, thereby clarifying the optimization direction and making it more robust to noise. We evaluate RPO on two multi-turn IF benchmarks, Sysbench and Multi-IF, demonstrating average improvements over the DPO baseline of 4.6 and 2.5 points (on Llama-3.1 8B), respectively. Moreover, RPO scales effectively across model sizes (8B to 70B parameters), with the 70B RPO model surpassing GPT-4o.

Optimisation Inverse des Préférences pour le Suivi d'Instructions Complexes

Reverse Preference Optimization for Complex Instruction Following

papers.abstract

Support