ChatPaper.aiChatPaper

sDPO: データを一度にすべて使わない

sDPO: Don't Use Your Data All at Once

March 28, 2024
著者: Dahyun Kim, Yungi Kim, Wonho Song, Hyeonwoo Kim, Yunsu Kim, Sanghoon Kim, Chanjun Park
cs.AI

要旨

大規模言語モデル(LLM)の開発が進むにつれ、それらを人間の好みに合わせることがますます重要になっています。本論文では、最近注目を集めている直接選好最適化(DPO)を拡張した段階的DPO(sDPO)を提案します。このアプローチでは、利用可能な選好データセットを分割し、一度にすべてを使用するのではなく、段階的に活用します。この方法により、DPOトレーニングフレームワーク内でより正確に調整された参照モデルを使用することが容易になることを示します。さらに、sDPOは最終モデルをより高性能に訓練し、より多くのパラメータを持つ他の人気LLMを上回る性能を発揮します。
English
As development of large language models (LLM) progresses, aligning them with human preferences has become increasingly important. We propose stepwise DPO (sDPO), an extension of the recently popularized direct preference optimization (DPO) for alignment tuning. This approach involves dividing the available preference datasets and utilizing them in a stepwise manner, rather than employing it all at once. We demonstrate that this method facilitates the use of more precisely aligned reference models within the DPO training framework. Furthermore, sDPO trains the final model to be more performant, even outperforming other popular LLMs with more parameters.

Summary

AI-Generated Summary

PDF423December 15, 2024