Otimização de Preferência Reversa para Seguimento de Instruções Complexas
Reverse Preference Optimization for Complex Instruction Following
May 28, 2025
Autores: Xiang Huang, Ting-En Lin, Feiteng Fang, Yuchuan Wu, Hangyu Li, Yuzhong Qu, Fei Huang, Yongbin Li
cs.AI
Resumo
A capacidade de seguir instruções (IF) é uma habilidade crítica para grandes modelos de linguagem (LLMs). No entanto, lidar com instruções complexas que envolvem múltiplas restrições continua sendo um desafio. Métodos anteriores geralmente selecionam pares de preferência com base no número de restrições que satisfazem, introduzindo ruído onde exemplos escolhidos podem falhar em seguir algumas restrições, enquanto exemplos rejeitados podem se destacar em certos aspectos em relação aos escolhidos. Para enfrentar o desafio de alinhar múltiplas preferências, propomos um método simples, porém eficaz, chamado Otimização de Preferência Reversa (RPO). Ele mitiga o ruído nos pares de preferência ao reverter dinamicamente as restrições dentro da instrução, garantindo que a resposta escolhida seja perfeita, aliviando a necessidade de amostragem extensiva e filtragem para coletar respostas perfeitas. Além disso, a reversão também amplia a diferença entre respostas escolhidas e rejeitadas, esclarecendo a direção de otimização e tornando-a mais robusta ao ruído. Avaliamos o RPO em dois benchmarks de IF multi-turn, Sysbench e Multi-IF, demonstrando melhorias médias em relação à linha de base DPO de 4,6 e 2,5 pontos (no Llama-3.1 8B), respectivamente. Além disso, o RPO escala efetivamente em diferentes tamanhos de modelos (8B a 70B parâmetros), com o modelo RPO de 70B superando o GPT-4o.
English
Instruction following (IF) is a critical capability for large language models
(LLMs). However, handling complex instructions with multiple constraints
remains challenging. Previous methods typically select preference pairs based
on the number of constraints they satisfy, introducing noise where chosen
examples may fail to follow some constraints and rejected examples may excel in
certain respects over the chosen ones. To address the challenge of aligning
with multiple preferences, we propose a simple yet effective method called
Reverse Preference Optimization (RPO). It mitigates noise in preference pairs
by dynamically reversing the constraints within the instruction to ensure the
chosen response is perfect, alleviating the burden of extensive sampling and
filtering to collect perfect responses. Besides, reversal also enlarges the gap
between chosen and rejected responses, thereby clarifying the optimization
direction and making it more robust to noise. We evaluate RPO on two multi-turn
IF benchmarks, Sysbench and Multi-IF, demonstrating average improvements over
the DPO baseline of 4.6 and 2.5 points (on Llama-3.1 8B), respectively.
Moreover, RPO scales effectively across model sizes (8B to 70B parameters),
with the 70B RPO model surpassing GPT-4o.