ChatPaper.aiChatPaper

Potenziamento automatico di grandi modelli linguistici con dati di preferenza sintetici

Self-Boosting Large Language Models with Synthetic Preference Data

October 9, 2024
Autori: Qingxiu Dong, Li Dong, Xingxing Zhang, Zhifang Sui, Furu Wei
cs.AI

Abstract

Attraverso l'allineamento con le preferenze umane, i Grandi Modelli Linguistici (LLM) hanno fatto progressi significativi nella generazione di risposte oneste, innocue e utili. Tuttavia, raccogliere dati di preferenza di alta qualità è un processo intensivo in risorse e richiedente creatività, specialmente per il miglioramento continuo dei LLM. Presentiamo SynPO, un paradigma di auto-miglioramento che sfrutta dati di preferenza sintetici per l'allineamento del modello. SynPO impiega un meccanismo iterativo in cui un generatore di auto-promemoria crea promemorie diverse, e un miglioratore di risposta affina progressivamente le risposte del modello. Questo approccio addestra i LLM a imparare autonomamente i premi generativi per le proprie uscite ed elimina la necessità di un'annotazione su larga scala di promemorie e preferenze umane. Dopo quattro iterazioni di SynPO, Llama3-8B e Mistral-7B mostrano miglioramenti significativi nelle capacità di seguire istruzioni, ottenendo oltre il 22,1% di miglioramenti nel tasso di vittoria su AlpacaEval 2.0 e ArenaHard. Allo stesso tempo, SynPO migliora le prestazioni generali dei LLM su varie attività, convalidato da un aumento del punteggio medio da 3,2 a 5,0 sulla ben nota classifica Open LLM.
English
Through alignment with human preferences, Large Language Models (LLMs) have advanced significantly in generating honest, harmless, and helpful responses. However, collecting high-quality preference data is a resource-intensive and creativity-demanding process, especially for the continual improvement of LLMs. We introduce SynPO, a self-boosting paradigm that leverages synthetic preference data for model alignment. SynPO employs an iterative mechanism wherein a self-prompt generator creates diverse prompts, and a response improver refines model responses progressively. This approach trains LLMs to autonomously learn the generative rewards for their own outputs and eliminates the need for large-scale annotation of prompts and human preferences. After four SynPO iterations, Llama3-8B and Mistral-7B show significant enhancements in instruction-following abilities, achieving over 22.1% win rate improvements on AlpacaEval 2.0 and ArenaHard. Simultaneously, SynPO improves the general performance of LLMs on various tasks, validated by a 3.2 to 5.0 average score increase on the well-recognized Open LLM leaderboard.
PDF161November 16, 2024