Zelfversterkende grote taalmodellen met synthetische voorkeursgegevens
Self-Boosting Large Language Models with Synthetic Preference Data
October 9, 2024
Auteurs: Qingxiu Dong, Li Dong, Xingxing Zhang, Zhifang Sui, Furu Wei
cs.AI
Samenvatting
Door afstemming op menselijke voorkeuren hebben Grote Taalmodellen (LLM's) aanzienlijke vooruitgang geboekt in het genereren van eerlijke, onschadelijke en behulpzame reacties. Het verzamelen van hoogwaardige voorkeursgegevens is echter een arbeidsintensief en creativiteit-vragend proces, vooral voor de voortdurende verbetering van LLM's. We introduceren SynPO, een zelfversterkend paradigma dat synthetische voorkeursgegevens benut voor modelafstemming. SynPO maakt gebruik van een iteratief mechanisme waarbij een zelfpromptgenerator diverse prompts genereert, en een responsverbeteraar modelreacties progressief verfijnt. Deze aanpak traint LLM's om autonoom de generatieve beloningen voor hun eigen uitvoer te leren en elimineert de noodzaak voor grootschalige annotatie van prompts en menselijke voorkeuren. Na vier SynPO-iteraties vertonen Llama3-8B en Mistral-7B aanzienlijke verbeteringen in het opvolgen van instructies, met meer dan 22,1% winstverbeteringen op AlpacaEval 2.0 en ArenaHard. Tegelijkertijd verbetert SynPO de algemene prestaties van LLM's op verschillende taken, bevestigd door een gemiddelde scorestijging van 3,2 tot 5,0 op de bekende Open LLM-leiderbord.
English
Through alignment with human preferences, Large Language Models (LLMs) have
advanced significantly in generating honest, harmless, and helpful responses.
However, collecting high-quality preference data is a resource-intensive and
creativity-demanding process, especially for the continual improvement of LLMs.
We introduce SynPO, a self-boosting paradigm that leverages synthetic
preference data for model alignment. SynPO employs an iterative mechanism
wherein a self-prompt generator creates diverse prompts, and a response
improver refines model responses progressively. This approach trains LLMs to
autonomously learn the generative rewards for their own outputs and eliminates
the need for large-scale annotation of prompts and human preferences. After
four SynPO iterations, Llama3-8B and Mistral-7B show significant enhancements
in instruction-following abilities, achieving over 22.1% win rate improvements
on AlpacaEval 2.0 and ArenaHard. Simultaneously, SynPO improves the general
performance of LLMs on various tasks, validated by a 3.2 to 5.0 average score
increase on the well-recognized Open LLM leaderboard.Summary
AI-Generated Summary