Zelfversterkende grote taalmodellen met synthetische voorkeursgegevens

Samenvatting

Door afstemming op menselijke voorkeuren hebben Grote Taalmodellen (LLM's) aanzienlijke vooruitgang geboekt in het genereren van eerlijke, onschadelijke en behulpzame reacties. Het verzamelen van hoogwaardige voorkeursgegevens is echter een arbeidsintensief en creativiteit-vragend proces, vooral voor de voortdurende verbetering van LLM's. We introduceren SynPO, een zelfversterkend paradigma dat synthetische voorkeursgegevens benut voor modelafstemming. SynPO maakt gebruik van een iteratief mechanisme waarbij een zelfpromptgenerator diverse prompts genereert, en een responsverbeteraar modelreacties progressief verfijnt. Deze aanpak traint LLM's om autonoom de generatieve beloningen voor hun eigen uitvoer te leren en elimineert de noodzaak voor grootschalige annotatie van prompts en menselijke voorkeuren. Na vier SynPO-iteraties vertonen Llama3-8B en Mistral-7B aanzienlijke verbeteringen in het opvolgen van instructies, met meer dan 22,1% winstverbeteringen op AlpacaEval 2.0 en ArenaHard. Tegelijkertijd verbetert SynPO de algemene prestaties van LLM's op verschillende taken, bevestigd door een gemiddelde scorestijging van 3,2 tot 5,0 op de bekende Open LLM-leiderbord.

English

Through alignment with human preferences, Large Language Models (LLMs) have advanced significantly in generating honest, harmless, and helpful responses. However, collecting high-quality preference data is a resource-intensive and creativity-demanding process, especially for the continual improvement of LLMs. We introduce SynPO, a self-boosting paradigm that leverages synthetic preference data for model alignment. SynPO employs an iterative mechanism wherein a self-prompt generator creates diverse prompts, and a response improver refines model responses progressively. This approach trains LLMs to autonomously learn the generative rewards for their own outputs and eliminates the need for large-scale annotation of prompts and human preferences. After four SynPO iterations, Llama3-8B and Mistral-7B show significant enhancements in instruction-following abilities, achieving over 22.1% win rate improvements on AlpacaEval 2.0 and ArenaHard. Simultaneously, SynPO improves the general performance of LLMs on various tasks, validated by a 3.2 to 5.0 average score increase on the well-recognized Open LLM leaderboard.

Zelfversterkende grote taalmodellen met synthetische voorkeursgegevens

Self-Boosting Large Language Models with Synthetic Preference Data

Samenvatting

Summary

Support

Support