ChatPaper.aiChatPaper

IOPO: Повышение эффективности LLM с помощью сложных инструкций посредством оптимизации предпочтений ввода-вывода

IOPO: Empowering LLMs with Complex Instruction Following via Input-Output Preference Optimization

November 9, 2024
Авторы: Xinghua Zhang, Haiyang Yu, Cheng Fu, Fei Huang, Yongbin Li
cs.AI

Аннотация

В области больших языковых моделей (LLM) способность моделей точно следовать инструкциям имеет первостепенное значение, поскольку все больше агентов и приложений используют LLM для построения, где сложность инструкций быстро возрастает. Однако, с одной стороны, имеется лишь определенное количество данных для оценки сложных инструкций; с другой стороны, отсутствуют специализированные алгоритмы для улучшения способности следовать сложным инструкциям. В этой работе представляется TRACE, бенчмарк для улучшения и оценки способности следовать сложным инструкциям, который состоит из 120 тыс. обучающих данных и 1 тыс. данных для оценки. Кроме того, мы предлагаем метод выравнивания IOPO (Оптимизация предпочтений ввода-вывода), который учитывает как пары предпочтений ввода, так и вывода, где LLM не только быстро выравнивается с предпочтениями ответа, но и тщательно исследует предпочтения инструкций. Обширные эксперименты как на внутриобластных, так и на внебластных наборах данных подтверждают эффективность IOPO, показывая улучшения на 8,15% и 2,18% на внутриобластных данных и на 6,29% и 3,13% на внебластных данных по сравнению с SFT и DPO соответственно.
English
In the realm of large language models (LLMs), the ability of models to accurately follow instructions is paramount as more agents and applications leverage LLMs for construction, where the complexity of instructions are rapidly increasing. However, on the one hand, there is only a certain amount of complex instruction evaluation data; on the other hand, there are no dedicated algorithms to improve the ability to follow complex instructions. To this end, this paper introduces TRACE, a benchmark for improving and evaluating the complex instructionfollowing ability, which consists of 120K training data and 1K evaluation data. Furthermore, we propose IOPO (Input-Output Preference Optimization) alignment method which takes both input and output preference pairs into consideration, where LLMs not only rapidly align with response preferences but also meticulously explore the instruction preferences. Extensive experiments on both in-domain and outof-domain datasets confirm the effectiveness of IOPO, showing 8.15%, 2.18% improvements on in-domain data and 6.29%, 3.13% on outof-domain data compared to SFT and DPO respectively.

Summary

AI-Generated Summary

PDF208November 12, 2024