sDPO: Не используйте свои данные сразу все сразу.
sDPO: Don't Use Your Data All at Once
March 28, 2024
Авторы: Dahyun Kim, Yungi Kim, Wonho Song, Hyeonwoo Kim, Yunsu Kim, Sanghoon Kim, Chanjun Park
cs.AI
Аннотация
По мере развития крупных языковых моделей (LLM) становится все более важным их выравнивание с предпочтениями людей. Мы предлагаем шаговую DPO (sDPO), расширение недавно популяризированной оптимизации прямых предпочтений (DPO) для настройки выравнивания. Этот подход включает разделение доступных наборов данных предпочтений и их использование поэтапно, а не все сразу. Мы демонстрируем, что этот метод облегчает использование более точно выровненных эталонных моделей в рамках обучения DPO. Более того, sDPO обучает конечную модель быть более производительной, превосходя даже другие популярные LLM с большим количеством параметров.
English
As development of large language models (LLM) progresses, aligning them with
human preferences has become increasingly important. We propose stepwise DPO
(sDPO), an extension of the recently popularized direct preference optimization
(DPO) for alignment tuning. This approach involves dividing the available
preference datasets and utilizing them in a stepwise manner, rather than
employing it all at once. We demonstrate that this method facilitates the use
of more precisely aligned reference models within the DPO training framework.
Furthermore, sDPO trains the final model to be more performant, even
outperforming other popular LLMs with more parameters.Summary
AI-Generated Summary