sDPO: Não Utilize Todos os Seus Dados de Uma Só Vez
sDPO: Don't Use Your Data All at Once
March 28, 2024
Autores: Dahyun Kim, Yungi Kim, Wonho Song, Hyeonwoo Kim, Yunsu Kim, Sanghoon Kim, Chanjun Park
cs.AI
Resumo
À medida que o desenvolvimento de modelos de linguagem de grande escala (LLM) avança, alinhá-los com as preferências humanas tem se tornado cada vez mais importante. Propomos o DPO escalonado (sDPO), uma extensão da otimização direta de preferências (DPO), recentemente popularizada para ajuste de alinhamento. Essa abordagem envolve dividir os conjuntos de dados de preferência disponíveis e utilizá-los de maneira escalonada, em vez de empregá-los todos de uma só vez. Demonstramos que esse método facilita o uso de modelos de referência mais precisamente alinhados dentro do framework de treinamento DPO. Além disso, o sDPO treina o modelo final para ser mais performático, superando até mesmo outros LLMs populares com mais parâmetros.
English
As development of large language models (LLM) progresses, aligning them with
human preferences has become increasingly important. We propose stepwise DPO
(sDPO), an extension of the recently popularized direct preference optimization
(DPO) for alignment tuning. This approach involves dividing the available
preference datasets and utilizing them in a stepwise manner, rather than
employing it all at once. We demonstrate that this method facilitates the use
of more precisely aligned reference models within the DPO training framework.
Furthermore, sDPO trains the final model to be more performant, even
outperforming other popular LLMs with more parameters.