ChatPaper.aiChatPaper

sDPO: 데이터를 한 번에 모두 사용하지 마세요

sDPO: Don't Use Your Data All at Once

March 28, 2024
저자: Dahyun Kim, Yungi Kim, Wonho Song, Hyeonwoo Kim, Yunsu Kim, Sanghoon Kim, Chanjun Park
cs.AI

초록

대규모 언어 모델(LLM)의 개발이 진행됨에 따라, 이를 인간의 선호도와 조율하는 것이 점점 더 중요해지고 있습니다. 우리는 최근 인기를 끌고 있는 직접 선호도 최적화(DPO)를 확장한 단계적 DPO(sDPO)를 제안합니다. 이 접근법은 사용 가능한 선호도 데이터셋을 분할하고 이를 단계적으로 활용하는 방식으로, 한 번에 모두 사용하는 대신에 더 정밀하게 조율된 참조 모델을 DPO 학습 프레임워크 내에서 사용할 수 있도록 돕습니다. 더 나아가, sDPO는 최종 모델을 더 높은 성능으로 학습시켜, 더 많은 매개변수를 가진 다른 인기 있는 LLM들보다도 우수한 성능을 보이도록 합니다.
English
As development of large language models (LLM) progresses, aligning them with human preferences has become increasingly important. We propose stepwise DPO (sDPO), an extension of the recently popularized direct preference optimization (DPO) for alignment tuning. This approach involves dividing the available preference datasets and utilizing them in a stepwise manner, rather than employing it all at once. We demonstrate that this method facilitates the use of more precisely aligned reference models within the DPO training framework. Furthermore, sDPO trains the final model to be more performant, even outperforming other popular LLMs with more parameters.

Summary

AI-Generated Summary

PDF423December 15, 2024