sDPO : N'utilisez pas toutes vos données en une seule fois

papers.abstract

Alors que le développement des grands modèles de langage (LLM) progresse, leur alignement avec les préférences humaines est devenu de plus en plus crucial. Nous proposons le DPO par étapes (sDPO), une extension de l'optimisation directe des préférences (DPO) récemment popularisée pour le réglage de l'alignement. Cette approche consiste à diviser les ensembles de données de préférences disponibles et à les utiliser de manière progressive, plutôt que de les employer simultanément. Nous démontrons que cette méthode facilite l'utilisation de modèles de référence plus précisément alignés dans le cadre d'entraînement du DPO. De plus, le sDPO permet d'entraîner le modèle final pour qu'il soit plus performant, surpassant même d'autres LLM populaires dotés de davantage de paramètres.

English

As development of large language models (LLM) progresses, aligning them with human preferences has become increasingly important. We propose stepwise DPO (sDPO), an extension of the recently popularized direct preference optimization (DPO) for alignment tuning. This approach involves dividing the available preference datasets and utilizing them in a stepwise manner, rather than employing it all at once. We demonstrate that this method facilitates the use of more precisely aligned reference models within the DPO training framework. Furthermore, sDPO trains the final model to be more performant, even outperforming other popular LLMs with more parameters.

sDPO : N'utilisez pas toutes vos données en une seule fois

sDPO: Don't Use Your Data All at Once

papers.abstract

Support