Optimización Inversa de Preferencias para el Seguimiento de Instrucciones Complejas
Reverse Preference Optimization for Complex Instruction Following
May 28, 2025
Autores: Xiang Huang, Ting-En Lin, Feiteng Fang, Yuchuan Wu, Hangyu Li, Yuzhong Qu, Fei Huang, Yongbin Li
cs.AI
Resumen
La capacidad de seguir instrucciones (IF, por sus siglas en inglés) es una habilidad crítica para los modelos de lenguaje de gran escala (LLMs). Sin embargo, manejar instrucciones complejas con múltiples restricciones sigue siendo un desafío. Los métodos anteriores suelen seleccionar pares de preferencias basándose en el número de restricciones que satisfacen, introduciendo ruido en los casos en que las respuestas elegidas pueden no cumplir con algunas restricciones, mientras que las respuestas rechazadas pueden sobresalir en ciertos aspectos frente a las elegidas. Para abordar el desafío de alinearse con múltiples preferencias, proponemos un método simple pero efectivo llamado Optimización de Preferencias Inversas (RPO, por sus siglas en inglés). Este método mitiga el ruido en los pares de preferencias al invertir dinámicamente las restricciones dentro de la instrucción, asegurando que la respuesta elegida sea perfecta y reduciendo la necesidad de un muestreo y filtrado extensivo para recopilar respuestas perfectas. Además, la inversión también amplía la brecha entre las respuestas elegidas y rechazadas, clarificando así la dirección de optimización y haciéndola más robusta frente al ruido. Evaluamos RPO en dos benchmarks de IF de múltiples turnos, Sysbench y Multi-IF, demostrando mejoras promedio sobre la línea base DPO de 4.6 y 2.5 puntos (en Llama-3.1 8B), respectivamente. Además, RPO escala eficazmente en tamaños de modelo (de 8B a 70B parámetros), con el modelo RPO de 70B superando a GPT-4o.
English
Instruction following (IF) is a critical capability for large language models
(LLMs). However, handling complex instructions with multiple constraints
remains challenging. Previous methods typically select preference pairs based
on the number of constraints they satisfy, introducing noise where chosen
examples may fail to follow some constraints and rejected examples may excel in
certain respects over the chosen ones. To address the challenge of aligning
with multiple preferences, we propose a simple yet effective method called
Reverse Preference Optimization (RPO). It mitigates noise in preference pairs
by dynamically reversing the constraints within the instruction to ensure the
chosen response is perfect, alleviating the burden of extensive sampling and
filtering to collect perfect responses. Besides, reversal also enlarges the gap
between chosen and rejected responses, thereby clarifying the optimization
direction and making it more robust to noise. We evaluate RPO on two multi-turn
IF benchmarks, Sysbench and Multi-IF, demonstrating average improvements over
the DPO baseline of 4.6 and 2.5 points (on Llama-3.1 8B), respectively.
Moreover, RPO scales effectively across model sizes (8B to 70B parameters),
with the 70B RPO model surpassing GPT-4o.Summary
AI-Generated Summary