Otimização de Preferência Reversa para Seguimento de Instruções Complexas

Resumo

A capacidade de seguir instruções (IF) é uma habilidade crítica para grandes modelos de linguagem (LLMs). No entanto, lidar com instruções complexas que envolvem múltiplas restrições continua sendo um desafio. Métodos anteriores geralmente selecionam pares de preferência com base no número de restrições que satisfazem, introduzindo ruído onde exemplos escolhidos podem falhar em seguir algumas restrições, enquanto exemplos rejeitados podem se destacar em certos aspectos em relação aos escolhidos. Para enfrentar o desafio de alinhar múltiplas preferências, propomos um método simples, porém eficaz, chamado Otimização de Preferência Reversa (RPO). Ele mitiga o ruído nos pares de preferência ao reverter dinamicamente as restrições dentro da instrução, garantindo que a resposta escolhida seja perfeita, aliviando a necessidade de amostragem extensiva e filtragem para coletar respostas perfeitas. Além disso, a reversão também amplia a diferença entre respostas escolhidas e rejeitadas, esclarecendo a direção de otimização e tornando-a mais robusta ao ruído. Avaliamos o RPO em dois benchmarks de IF multi-turn, Sysbench e Multi-IF, demonstrando melhorias médias em relação à linha de base DPO de 4,6 e 2,5 pontos (no Llama-3.1 8B), respectivamente. Além disso, o RPO escala efetivamente em diferentes tamanhos de modelos (8B a 70B parâmetros), com o modelo RPO de 70B superando o GPT-4o.

English

Instruction following (IF) is a critical capability for large language models (LLMs). However, handling complex instructions with multiple constraints remains challenging. Previous methods typically select preference pairs based on the number of constraints they satisfy, introducing noise where chosen examples may fail to follow some constraints and rejected examples may excel in certain respects over the chosen ones. To address the challenge of aligning with multiple preferences, we propose a simple yet effective method called Reverse Preference Optimization (RPO). It mitigates noise in preference pairs by dynamically reversing the constraints within the instruction to ensure the chosen response is perfect, alleviating the burden of extensive sampling and filtering to collect perfect responses. Besides, reversal also enlarges the gap between chosen and rejected responses, thereby clarifying the optimization direction and making it more robust to noise. We evaluate RPO on two multi-turn IF benchmarks, Sysbench and Multi-IF, demonstrating average improvements over the DPO baseline of 4.6 and 2.5 points (on Llama-3.1 8B), respectively. Moreover, RPO scales effectively across model sizes (8B to 70B parameters), with the 70B RPO model surpassing GPT-4o.

Otimização de Preferência Reversa para Seguimento de Instruções Complexas

Reverse Preference Optimization for Complex Instruction Following

Resumo

Support