ChatPaper.aiChatPaper

Selbstverstärkende große Sprachmodelle mit synthetischen Präferenzdaten

Self-Boosting Large Language Models with Synthetic Preference Data

October 9, 2024
Autoren: Qingxiu Dong, Li Dong, Xingxing Zhang, Zhifang Sui, Furu Wei
cs.AI

Zusammenfassung

Durch die Ausrichtung an menschlichen Präferenzen haben sich Large Language Models (LLMs) erheblich verbessert, um ehrliche, harmlose und hilfreiche Antworten zu generieren. Die Sammlung hochwertiger Präferenzdaten ist jedoch ein ressourcenintensiver und kreativitätsfordernder Prozess, insbesondere für die kontinuierliche Verbesserung von LLMs. Wir stellen SynPO vor, ein selbstverstärkendes Paradigma, das synthetische Präferenzdaten zur Modellausrichtung nutzt. SynPO verwendet einen iterativen Mechanismus, bei dem ein Selbst-Prompt-Generator vielfältige Prompts erstellt und ein Antwortverbesserer die Modellantworten schrittweise verfeinert. Dieser Ansatz trainiert LLMs, um autonom die generativen Belohnungen für ihre eigenen Ausgaben zu erlernen und beseitigt die Notwendigkeit für die groß angelegte Annotation von Prompts und menschlichen Präferenzen. Nach vier SynPO-Iterationen zeigen Llama3-8B und Mistral-7B signifikante Verbesserungen in den Fähigkeiten zur Befolgung von Anweisungen und erzielen über 22,1% Verbesserungen der Gewinnrate bei AlpacaEval 2.0 und ArenaHard. Gleichzeitig verbessert SynPO die allgemeine Leistung von LLMs in verschiedenen Aufgaben, validiert durch eine durchschnittliche Punktesteigerung von 3,2 bis 5,0 auf dem renommierten Open LLM-Leaderboard.
English
Through alignment with human preferences, Large Language Models (LLMs) have advanced significantly in generating honest, harmless, and helpful responses. However, collecting high-quality preference data is a resource-intensive and creativity-demanding process, especially for the continual improvement of LLMs. We introduce SynPO, a self-boosting paradigm that leverages synthetic preference data for model alignment. SynPO employs an iterative mechanism wherein a self-prompt generator creates diverse prompts, and a response improver refines model responses progressively. This approach trains LLMs to autonomously learn the generative rewards for their own outputs and eliminates the need for large-scale annotation of prompts and human preferences. After four SynPO iterations, Llama3-8B and Mistral-7B show significant enhancements in instruction-following abilities, achieving over 22.1% win rate improvements on AlpacaEval 2.0 and ArenaHard. Simultaneously, SynPO improves the general performance of LLMs on various tasks, validated by a 3.2 to 5.0 average score increase on the well-recognized Open LLM leaderboard.

Summary

AI-Generated Summary

PDF171November 16, 2024