Optimización Inversa de Preferencias para el Seguimiento de Instrucciones Complejas

Resumen

La capacidad de seguir instrucciones (IF, por sus siglas en inglés) es una habilidad crítica para los modelos de lenguaje de gran escala (LLMs). Sin embargo, manejar instrucciones complejas con múltiples restricciones sigue siendo un desafío. Los métodos anteriores suelen seleccionar pares de preferencias basándose en el número de restricciones que satisfacen, introduciendo ruido en los casos en que las respuestas elegidas pueden no cumplir con algunas restricciones, mientras que las respuestas rechazadas pueden sobresalir en ciertos aspectos frente a las elegidas. Para abordar el desafío de alinearse con múltiples preferencias, proponemos un método simple pero efectivo llamado Optimización de Preferencias Inversas (RPO, por sus siglas en inglés). Este método mitiga el ruido en los pares de preferencias al invertir dinámicamente las restricciones dentro de la instrucción, asegurando que la respuesta elegida sea perfecta y reduciendo la necesidad de un muestreo y filtrado extensivo para recopilar respuestas perfectas. Además, la inversión también amplía la brecha entre las respuestas elegidas y rechazadas, clarificando así la dirección de optimización y haciéndola más robusta frente al ruido. Evaluamos RPO en dos benchmarks de IF de múltiples turnos, Sysbench y Multi-IF, demostrando mejoras promedio sobre la línea base DPO de 4.6 y 2.5 puntos (en Llama-3.1 8B), respectivamente. Además, RPO escala eficazmente en tamaños de modelo (de 8B a 70B parámetros), con el modelo RPO de 70B superando a GPT-4o.

English

Instruction following (IF) is a critical capability for large language models (LLMs). However, handling complex instructions with multiple constraints remains challenging. Previous methods typically select preference pairs based on the number of constraints they satisfy, introducing noise where chosen examples may fail to follow some constraints and rejected examples may excel in certain respects over the chosen ones. To address the challenge of aligning with multiple preferences, we propose a simple yet effective method called Reverse Preference Optimization (RPO). It mitigates noise in preference pairs by dynamically reversing the constraints within the instruction to ensure the chosen response is perfect, alleviating the burden of extensive sampling and filtering to collect perfect responses. Besides, reversal also enlarges the gap between chosen and rejected responses, thereby clarifying the optimization direction and making it more robust to noise. We evaluate RPO on two multi-turn IF benchmarks, Sysbench and Multi-IF, demonstrating average improvements over the DPO baseline of 4.6 and 2.5 points (on Llama-3.1 8B), respectively. Moreover, RPO scales effectively across model sizes (8B to 70B parameters), with the 70B RPO model surpassing GPT-4o.

Optimización Inversa de Preferencias para el Seguimiento de Instrucciones Complejas

Reverse Preference Optimization for Complex Instruction Following

Resumen

Support