Amélioration automatique de grands modèles de langage à l'aide de données de préférence synthétiques
Self-Boosting Large Language Models with Synthetic Preference Data
October 9, 2024
Auteurs: Qingxiu Dong, Li Dong, Xingxing Zhang, Zhifang Sui, Furu Wei
cs.AI
Résumé
En s'alignant sur les préférences humaines, les grands modèles de langage (LLM) ont considérablement progressé dans la génération de réponses honnêtes, inoffensives et utiles. Cependant, la collecte de données de préférence de haute qualité est un processus intensif en ressources et exigeant en créativité, notamment pour l'amélioration continue des LLM. Nous introduisons SynPO, un paradigme d'auto-amélioration qui exploite des données de préférence synthétiques pour l'alignement du modèle. SynPO utilise un mécanisme itératif où un générateur d'auto-incitation crée des incitations diverses, et un améliorateur de réponse affine progressivement les réponses du modèle. Cette approche permet aux LLM d'apprendre de manière autonome les récompenses génératives pour leurs propres sorties et élimine le besoin d'une annotation à grande échelle des incitations et des préférences humaines. Après quatre itérations de SynPO, Llama3-8B et Mistral-7B montrent des améliorations significatives dans leurs capacités à suivre les instructions, avec des améliorations de plus de 22,1 % du taux de réussite sur AlpacaEval 2.0 et ArenaHard. Simultanément, SynPO améliore les performances générales des LLM sur diverses tâches, validées par une augmentation moyenne de 3,2 à 5,0 points sur le tableau de classement Open LLM bien connu.
English
Through alignment with human preferences, Large Language Models (LLMs) have
advanced significantly in generating honest, harmless, and helpful responses.
However, collecting high-quality preference data is a resource-intensive and
creativity-demanding process, especially for the continual improvement of LLMs.
We introduce SynPO, a self-boosting paradigm that leverages synthetic
preference data for model alignment. SynPO employs an iterative mechanism
wherein a self-prompt generator creates diverse prompts, and a response
improver refines model responses progressively. This approach trains LLMs to
autonomously learn the generative rewards for their own outputs and eliminates
the need for large-scale annotation of prompts and human preferences. After
four SynPO iterations, Llama3-8B and Mistral-7B show significant enhancements
in instruction-following abilities, achieving over 22.1% win rate improvements
on AlpacaEval 2.0 and ArenaHard. Simultaneously, SynPO improves the general
performance of LLMs on various tasks, validated by a 3.2 to 5.0 average score
increase on the well-recognized Open LLM leaderboard.Summary
AI-Generated Summary