sDPO: Gebruik je gegevens niet allemaal tegelijk
sDPO: Don't Use Your Data All at Once
March 28, 2024
Auteurs: Dahyun Kim, Yungi Kim, Wonho Song, Hyeonwoo Kim, Yunsu Kim, Sanghoon Kim, Chanjun Park
cs.AI
Samenvatting
Naarmate de ontwikkeling van grote taalmodellen (LLM) vordert, is het afstemmen ervan op menselijke voorkeuren steeds belangrijker geworden. Wij stellen stapsgewijze DPO (sDPO) voor, een uitbreiding van de recentelijk populair geworden direct preference optimization (DPO) voor afstemming. Deze aanpak omvat het verdelen van de beschikbare voorkeursdatasets en het stapsgewijs gebruiken ervan, in plaats van ze allemaal tegelijk in te zetten. Wij tonen aan dat deze methode het gebruik van nauwkeuriger afgestemde referentiemodellen binnen het DPO-trainingskader vergemakkelijkt. Bovendien traint sDPO het uiteindelijke model om beter te presteren, waarbij het zelfs andere populaire LLM's met meer parameters overtreft.
English
As development of large language models (LLM) progresses, aligning them with
human preferences has become increasingly important. We propose stepwise DPO
(sDPO), an extension of the recently popularized direct preference optimization
(DPO) for alignment tuning. This approach involves dividing the available
preference datasets and utilizing them in a stepwise manner, rather than
employing it all at once. We demonstrate that this method facilitates the use
of more precisely aligned reference models within the DPO training framework.
Furthermore, sDPO trains the final model to be more performant, even
outperforming other popular LLMs with more parameters.