sDPO : N'utilisez pas toutes vos données en une seule fois
sDPO: Don't Use Your Data All at Once
March 28, 2024
Auteurs: Dahyun Kim, Yungi Kim, Wonho Song, Hyeonwoo Kim, Yunsu Kim, Sanghoon Kim, Chanjun Park
cs.AI
Résumé
Alors que le développement des grands modèles de langage (LLM) progresse, leur alignement avec les préférences humaines est devenu de plus en plus crucial. Nous proposons le DPO par étapes (sDPO), une extension de l'optimisation directe des préférences (DPO) récemment popularisée pour le réglage de l'alignement. Cette approche consiste à diviser les ensembles de données de préférences disponibles et à les utiliser de manière progressive, plutôt que de les employer simultanément. Nous démontrons que cette méthode facilite l'utilisation de modèles de référence plus précisément alignés dans le cadre d'entraînement du DPO. De plus, le sDPO permet d'entraîner le modèle final pour qu'il soit plus performant, surpassant même d'autres LLM populaires dotés de davantage de paramètres.
English
As development of large language models (LLM) progresses, aligning them with
human preferences has become increasingly important. We propose stepwise DPO
(sDPO), an extension of the recently popularized direct preference optimization
(DPO) for alignment tuning. This approach involves dividing the available
preference datasets and utilizing them in a stepwise manner, rather than
employing it all at once. We demonstrate that this method facilitates the use
of more precisely aligned reference models within the DPO training framework.
Furthermore, sDPO trains the final model to be more performant, even
outperforming other popular LLMs with more parameters.Summary
AI-Generated Summary