Amélioration automatique de grands modèles de langage à l'aide de données de préférence synthétiques

papers.abstract

En s'alignant sur les préférences humaines, les grands modèles de langage (LLM) ont considérablement progressé dans la génération de réponses honnêtes, inoffensives et utiles. Cependant, la collecte de données de préférence de haute qualité est un processus intensif en ressources et exigeant en créativité, notamment pour l'amélioration continue des LLM. Nous introduisons SynPO, un paradigme d'auto-amélioration qui exploite des données de préférence synthétiques pour l'alignement du modèle. SynPO utilise un mécanisme itératif où un générateur d'auto-incitation crée des incitations diverses, et un améliorateur de réponse affine progressivement les réponses du modèle. Cette approche permet aux LLM d'apprendre de manière autonome les récompenses génératives pour leurs propres sorties et élimine le besoin d'une annotation à grande échelle des incitations et des préférences humaines. Après quatre itérations de SynPO, Llama3-8B et Mistral-7B montrent des améliorations significatives dans leurs capacités à suivre les instructions, avec des améliorations de plus de 22,1 % du taux de réussite sur AlpacaEval 2.0 et ArenaHard. Simultanément, SynPO améliore les performances générales des LLM sur diverses tâches, validées par une augmentation moyenne de 3,2 à 5,0 points sur le tableau de classement Open LLM bien connu.

English

Through alignment with human preferences, Large Language Models (LLMs) have advanced significantly in generating honest, harmless, and helpful responses. However, collecting high-quality preference data is a resource-intensive and creativity-demanding process, especially for the continual improvement of LLMs. We introduce SynPO, a self-boosting paradigm that leverages synthetic preference data for model alignment. SynPO employs an iterative mechanism wherein a self-prompt generator creates diverse prompts, and a response improver refines model responses progressively. This approach trains LLMs to autonomously learn the generative rewards for their own outputs and eliminates the need for large-scale annotation of prompts and human preferences. After four SynPO iterations, Llama3-8B and Mistral-7B show significant enhancements in instruction-following abilities, achieving over 22.1% win rate improvements on AlpacaEval 2.0 and ArenaHard. Simultaneously, SynPO improves the general performance of LLMs on various tasks, validated by a 3.2 to 5.0 average score increase on the well-recognized Open LLM leaderboard.

Amélioration automatique de grands modèles de langage à l'aide de données de préférence synthétiques

Self-Boosting Large Language Models with Synthetic Preference Data

papers.abstract

Support