ChatPaper.aiChatPaper

복잡한 명령어 수행을 위한 역방향 선호도 최적화

Reverse Preference Optimization for Complex Instruction Following

May 28, 2025
저자: Xiang Huang, Ting-En Lin, Feiteng Fang, Yuchuan Wu, Hangyu Li, Yuzhong Qu, Fei Huang, Yongbin Li
cs.AI

초록

명령어 수행(Instruction Following, IF)은 대규모 언어 모델(Large Language Models, LLMs)의 핵심 능력이다. 그러나 다중 제약 조건을 포함한 복잡한 명령어를 처리하는 것은 여전히 어려운 과제로 남아 있다. 기존 방법들은 일반적으로 제약 조건을 얼마나 충족하는지에 따라 선호 쌍을 선택함으로써, 선택된 예제가 일부 제약 조건을 따르지 못하거나 거부된 예제가 선택된 예제보다 특정 측면에서 우수할 수 있는 잡음을 유발한다. 다중 선호도와의 정렬 문제를 해결하기 위해, 우리는 Reverse Preference Optimization(RPO)이라는 간단하면서도 효과적인 방법을 제안한다. RPO는 명령어 내의 제약 조건을 동적으로 반전시켜 선택된 응답이 완벽하도록 함으로써 선호 쌍의 잡음을 완화하고, 완벽한 응답을 수집하기 위한 광범위한 샘플링 및 필터링의 부담을 줄인다. 또한, 반전은 선택된 응답과 거부된 응답 간의 차이를 확대함으로써 최적화 방향을 명확히 하고 잡음에 대한 강건성을 높인다. 우리는 RPO를 Sysbench와 Multi-IF라는 두 가지 다중 턴 IF 벤치마크에서 평가하였으며, 각각 DPO 기준선 대비 평균 4.6점과 2.5점(Llama-3.1 8B 기준)의 개선을 보였다. 더불어, RPO는 모델 크기(8B에서 70B 파라미터)에 걸쳐 효과적으로 확장되며, 70B RPO 모델은 GPT-4o를 능가하는 성능을 보였다.
English
Instruction following (IF) is a critical capability for large language models (LLMs). However, handling complex instructions with multiple constraints remains challenging. Previous methods typically select preference pairs based on the number of constraints they satisfy, introducing noise where chosen examples may fail to follow some constraints and rejected examples may excel in certain respects over the chosen ones. To address the challenge of aligning with multiple preferences, we propose a simple yet effective method called Reverse Preference Optimization (RPO). It mitigates noise in preference pairs by dynamically reversing the constraints within the instruction to ensure the chosen response is perfect, alleviating the burden of extensive sampling and filtering to collect perfect responses. Besides, reversal also enlarges the gap between chosen and rejected responses, thereby clarifying the optimization direction and making it more robust to noise. We evaluate RPO on two multi-turn IF benchmarks, Sysbench and Multi-IF, demonstrating average improvements over the DPO baseline of 4.6 and 2.5 points (on Llama-3.1 8B), respectively. Moreover, RPO scales effectively across model sizes (8B to 70B parameters), with the 70B RPO model surpassing GPT-4o.

Summary

AI-Generated Summary

PDF31May 29, 2025