ChatPaper.aiChatPaper

IOPO: Capacitando LLMs com Instruções Complexas Seguindo a Otimização de Preferência de Entrada-Saída

IOPO: Empowering LLMs with Complex Instruction Following via Input-Output Preference Optimization

November 9, 2024
Autores: Xinghua Zhang, Haiyang Yu, Cheng Fu, Fei Huang, Yongbin Li
cs.AI

Resumo

No âmbito dos grandes modelos de linguagem (LLMs), a capacidade dos modelos de seguir com precisão as instruções é fundamental, à medida que mais agentes e aplicações aproveitam os LLMs para a construção, onde a complexidade das instruções está aumentando rapidamente. No entanto, por um lado, há apenas uma certa quantidade de dados de avaliação de instruções complexas; por outro lado, não existem algoritmos dedicados para melhorar a capacidade de seguir instruções complexas. Para esse fim, este artigo apresenta TRACE, um benchmark para melhorar e avaliar a capacidade de seguir instruções complexas, que consiste em 120 mil dados de treinamento e 1 mil dados de avaliação. Além disso, propomos o método de alinhamento IOPO (Otimização de Preferência de Entrada-Saída) que leva em consideração pares de preferência de entrada e saída, onde os LLMs não apenas se alinham rapidamente com as preferências de resposta, mas também exploram meticulosamente as preferências de instrução. Experimentos extensivos em conjuntos de dados tanto dentro do domínio quanto fora do domínio confirmam a eficácia do IOPO, mostrando melhorias de 8,15% e 2,18% nos dados dentro do domínio e 6,29% e 3,13% nos dados fora do domínio em comparação com SFT e DPO, respectivamente.
English
In the realm of large language models (LLMs), the ability of models to accurately follow instructions is paramount as more agents and applications leverage LLMs for construction, where the complexity of instructions are rapidly increasing. However, on the one hand, there is only a certain amount of complex instruction evaluation data; on the other hand, there are no dedicated algorithms to improve the ability to follow complex instructions. To this end, this paper introduces TRACE, a benchmark for improving and evaluating the complex instructionfollowing ability, which consists of 120K training data and 1K evaluation data. Furthermore, we propose IOPO (Input-Output Preference Optimization) alignment method which takes both input and output preference pairs into consideration, where LLMs not only rapidly align with response preferences but also meticulously explore the instruction preferences. Extensive experiments on both in-domain and outof-domain datasets confirm the effectiveness of IOPO, showing 8.15%, 2.18% improvements on in-domain data and 6.29%, 3.13% on outof-domain data compared to SFT and DPO respectively.
PDF218November 12, 2024