IOPO: Potenciando LLMs con Instrucciones Complejas Siguiendo la Optimización de Preferencia de Entrada-Salida

Resumen

En el ámbito de los modelos de lenguaje grandes (LLMs), la capacidad de los modelos para seguir instrucciones con precisión es primordial a medida que más agentes y aplicaciones aprovechan los LLMs para la construcción, donde la complejidad de las instrucciones está aumentando rápidamente. Sin embargo, por un lado, solo hay una cierta cantidad de datos de evaluación de instrucciones complejas; por otro lado, no existen algoritmos dedicados para mejorar la capacidad de seguir instrucciones complejas. Con este fin, este documento presenta TRACE, un punto de referencia para mejorar y evaluar la capacidad de seguir instrucciones complejas, que consta de 120K datos de entrenamiento y 1K datos de evaluación. Además, proponemos el método de alineación IOPO (Optimización de Preferencia de Entrada-Salida) que tiene en cuenta pares de preferencias de entrada y salida, donde los LLMs no solo se alinean rápidamente con las preferencias de respuesta, sino que también exploran meticulosamente las preferencias de instrucciones. Experimentos extensos en conjuntos de datos tanto dentro como fuera del dominio confirman la efectividad de IOPO, mostrando mejoras del 8.15%, 2.18% en datos dentro del dominio y del 6.29%, 3.13% en datos fuera del dominio en comparación con SFT y DPO respectivamente.

English

In the realm of large language models (LLMs), the ability of models to accurately follow instructions is paramount as more agents and applications leverage LLMs for construction, where the complexity of instructions are rapidly increasing. However, on the one hand, there is only a certain amount of complex instruction evaluation data; on the other hand, there are no dedicated algorithms to improve the ability to follow complex instructions. To this end, this paper introduces TRACE, a benchmark for improving and evaluating the complex instructionfollowing ability, which consists of 120K training data and 1K evaluation data. Furthermore, we propose IOPO (Input-Output Preference Optimization) alignment method which takes both input and output preference pairs into consideration, where LLMs not only rapidly align with response preferences but also meticulously explore the instruction preferences. Extensive experiments on both in-domain and outof-domain datasets confirm the effectiveness of IOPO, showing 8.15%, 2.18% improvements on in-domain data and 6.29%, 3.13% on outof-domain data compared to SFT and DPO respectively.

IOPO: Potenciando LLMs con Instrucciones Complejas Siguiendo la Optimización de Preferencia de Entrada-Salida

IOPO: Empowering LLMs with Complex Instruction Following via Input-Output Preference Optimization

Resumen

Support