ChatPaper.aiChatPaper

Самоусовершенствующиеся большие языковые модели с синтетическими данными предпочтений

Self-Boosting Large Language Models with Synthetic Preference Data

October 9, 2024
Авторы: Qingxiu Dong, Li Dong, Xingxing Zhang, Zhifang Sui, Furu Wei
cs.AI

Аннотация

Через выравнивание с предпочтениями человека большие языковые модели (LLM) значительно продвинулись в генерации честных, безвредных и полезных ответов. Однако сбор высококачественных данных о предпочтениях является ресурсоемким и требует творческого подхода, особенно для непрерывного улучшения LLM. Мы представляем SynPO, парадигму самоусиления, которая использует синтетические данные о предпочтениях для выравнивания модели. SynPO использует итеративный механизм, в котором генератор самоподсказок создает разнообразные подсказки, а улучшатель ответов постепенно совершенствует ответы модели. Этот подход обучает LLM автономно изучать генеративные вознаграждения за свои собственные выходы и устраняет необходимость в масштабной аннотации подсказок и предпочтений человека. После четырех итераций SynPO Llama3-8B и Mistral-7B показывают значительное улучшение способностей к следованию инструкциям, достигая более чем на 22.1% увеличение победного рейтинга в AlpacaEval 2.0 и ArenaHard. Одновременно SynPO улучшает общую производительность LLM на различных задачах, подтвержденное увеличение среднего балла от 3.2 до 5.0 на широко признанном рейтинге Open LLM.
English
Through alignment with human preferences, Large Language Models (LLMs) have advanced significantly in generating honest, harmless, and helpful responses. However, collecting high-quality preference data is a resource-intensive and creativity-demanding process, especially for the continual improvement of LLMs. We introduce SynPO, a self-boosting paradigm that leverages synthetic preference data for model alignment. SynPO employs an iterative mechanism wherein a self-prompt generator creates diverse prompts, and a response improver refines model responses progressively. This approach trains LLMs to autonomously learn the generative rewards for their own outputs and eliminates the need for large-scale annotation of prompts and human preferences. After four SynPO iterations, Llama3-8B and Mistral-7B show significant enhancements in instruction-following abilities, achieving over 22.1% win rate improvements on AlpacaEval 2.0 and ArenaHard. Simultaneously, SynPO improves the general performance of LLMs on various tasks, validated by a 3.2 to 5.0 average score increase on the well-recognized Open LLM leaderboard.

Summary

AI-Generated Summary

PDF171November 16, 2024