合成嗜好データを用いた自己ブースティング型大規模言語モデル
Self-Boosting Large Language Models with Synthetic Preference Data
October 9, 2024
著者: Qingxiu Dong, Li Dong, Xingxing Zhang, Zhifang Sui, Furu Wei
cs.AI
要旨
人間の好みとの整合を通じて、大規模言語モデル(LLM)は正直で無害かつ有益な応答を生成する能力が著しく向上しています。ただし、高品質な好みのデータを収集することは、特にLLMの継続的な改善のためにはリソースを多く要し、創造性を要求されるプロセスです。本研究では、モデルの整合性のために合成好みのデータを活用する自己ブースティングパラダイムであるSynPOを提案します。SynPOは、自己プロンプト生成器が多様なプロンプトを作成し、応答改善者が段階的にモデルの応答を洗練する反復的なメカニズムを採用しています。このアプローチにより、LLMは自律的に自身の出力の生成的報酬を学習し、プロンプトや人間の好みの大規模な注釈の必要性を排除します。SynPOを4回反復した結果、Llama3-8BとMistral-7BはAlpacaEval 2.0とArenaHardにおいて22.1%以上の勝率向上を達成し、指示に従う能力が著しく向上しました。同時に、SynPOは、Open LLM leaderboardにおいて3.2から5.0の平均スコアの向上により、LLMの一般的なパフォーマンスを向上させました。
English
Through alignment with human preferences, Large Language Models (LLMs) have
advanced significantly in generating honest, harmless, and helpful responses.
However, collecting high-quality preference data is a resource-intensive and
creativity-demanding process, especially for the continual improvement of LLMs.
We introduce SynPO, a self-boosting paradigm that leverages synthetic
preference data for model alignment. SynPO employs an iterative mechanism
wherein a self-prompt generator creates diverse prompts, and a response
improver refines model responses progressively. This approach trains LLMs to
autonomously learn the generative rewards for their own outputs and eliminates
the need for large-scale annotation of prompts and human preferences. After
four SynPO iterations, Llama3-8B and Mistral-7B show significant enhancements
in instruction-following abilities, achieving over 22.1% win rate improvements
on AlpacaEval 2.0 and ArenaHard. Simultaneously, SynPO improves the general
performance of LLMs on various tasks, validated by a 3.2 to 5.0 average score
increase on the well-recognized Open LLM leaderboard.