IOPO: Potenciando LLMs con Instrucciones Complejas Siguiendo la Optimización de Preferencia de Entrada-Salida
IOPO: Empowering LLMs with Complex Instruction Following via Input-Output Preference Optimization
November 9, 2024
Autores: Xinghua Zhang, Haiyang Yu, Cheng Fu, Fei Huang, Yongbin Li
cs.AI
Resumen
En el ámbito de los modelos de lenguaje grandes (LLMs), la capacidad de los modelos para seguir instrucciones con precisión es primordial a medida que más agentes y aplicaciones aprovechan los LLMs para la construcción, donde la complejidad de las instrucciones está aumentando rápidamente. Sin embargo, por un lado, solo hay una cierta cantidad de datos de evaluación de instrucciones complejas; por otro lado, no existen algoritmos dedicados para mejorar la capacidad de seguir instrucciones complejas. Con este fin, este documento presenta TRACE, un punto de referencia para mejorar y evaluar la capacidad de seguir instrucciones complejas, que consta de 120K datos de entrenamiento y 1K datos de evaluación. Además, proponemos el método de alineación IOPO (Optimización de Preferencia de Entrada-Salida) que tiene en cuenta pares de preferencias de entrada y salida, donde los LLMs no solo se alinean rápidamente con las preferencias de respuesta, sino que también exploran meticulosamente las preferencias de instrucciones. Experimentos extensos en conjuntos de datos tanto dentro como fuera del dominio confirman la efectividad de IOPO, mostrando mejoras del 8.15%, 2.18% en datos dentro del dominio y del 6.29%, 3.13% en datos fuera del dominio en comparación con SFT y DPO respectivamente.
English
In the realm of large language models (LLMs), the ability of models to
accurately follow instructions is paramount as more agents and applications
leverage LLMs for construction, where the complexity of instructions are
rapidly increasing. However, on the one hand, there is only a certain amount of
complex instruction evaluation data; on the other hand, there are no dedicated
algorithms to improve the ability to follow complex instructions. To this end,
this paper introduces TRACE, a benchmark for improving and evaluating the
complex instructionfollowing ability, which consists of 120K training data and
1K evaluation data. Furthermore, we propose IOPO (Input-Output Preference
Optimization) alignment method which takes both input and output preference
pairs into consideration, where LLMs not only rapidly align with response
preferences but also meticulously explore the instruction preferences.
Extensive experiments on both in-domain and outof-domain datasets confirm the
effectiveness of IOPO, showing 8.15%, 2.18% improvements on in-domain data and
6.29%, 3.13% on outof-domain data compared to SFT and DPO respectively.Summary
AI-Generated Summary