Nouvelles exigences pour l'optimisation directe des préférences
New Desiderata for Direct Preference Optimization
July 12, 2024
Auteurs: Xiangkun Hu, Tong He, David Wipf
cs.AI
Résumé
Les grands modèles de langage ont traditionnellement reposé sur une forme d'apprentissage par renforcement avec retour humain (RLHF) pour mieux aligner les réponses du modèle avec les préférences humaines. Cependant, en raison des instabilités fréquemment observées lors de la mise en œuvre de ces pipelines RLHF, diverses techniques de reparamétrisation ont récemment été introduites pour contourner la nécessité d'apprendre séparément un modèle de récompense RL. Au lieu de cela, l'ajustement fin direct pour les préférences humaines est réalisé via la minimisation d'un objectif d'entraînement unique et fermé, un processus initialement appelé optimisation directe des préférences (DPO) et suivi par plusieurs descendants notables. Bien qu'efficaces dans certains contextes réels, nous introduisons de nouveaux critères d'évaluation qui mettent en lumière des lacunes non résolues dans la capacité des méthodes DPO existantes à interpoler entre un modèle de référence pré-entraîné et des mesures empiriques des préférences humaines, ainsi que des compromis inévitables dans la manière dont les réponses de faible et haute qualité sont régularisées et les contraintes gérées. Nos observations motivent alors une alternative de perte de type DPO qui atténue de manière prouvée ces limitations. Les résultats empiriques viennent corroborer des aspects notables de nos analyses.
English
Large language models in the past have typically relied on some form of
reinforcement learning with human feedback (RLHF) to better align model
responses with human preferences. However, because of oft-observed
instabilities when implementing these RLHF pipelines, various
reparameterization techniques have recently been introduced to sidestep the
need for separately learning an RL reward model. Instead, directly fine-tuning
for human preferences is achieved via the minimization of a single closed-form
training objective, a process originally referred to as direct preference
optimization (DPO) and followed by several notable descendants. Although
effective in certain real-world settings, we introduce new evaluation criteria
that serve to highlight unresolved shortcomings in the ability of existing DPO
methods to interpolate between a pre-trained reference model and empirical
measures of human preferences, as well as unavoidable trade-offs in how low-
and high-quality responses are regularized and constraints are handled. Our
insights then motivate an alternative DPO-like loss that provably mitigates
these limitations. Empirical results serve to corroborate notable aspects of
our analyses.Summary
AI-Generated Summary