ChatPaper.aiChatPaper

Nouvelles exigences pour l'optimisation directe des préférences

New Desiderata for Direct Preference Optimization

July 12, 2024
Auteurs: Xiangkun Hu, Tong He, David Wipf
cs.AI

Résumé

Les grands modèles de langage ont traditionnellement reposé sur une forme d'apprentissage par renforcement avec retour humain (RLHF) pour mieux aligner les réponses du modèle avec les préférences humaines. Cependant, en raison des instabilités fréquemment observées lors de la mise en œuvre de ces pipelines RLHF, diverses techniques de reparamétrisation ont récemment été introduites pour contourner la nécessité d'apprendre séparément un modèle de récompense RL. Au lieu de cela, l'ajustement fin direct pour les préférences humaines est réalisé via la minimisation d'un objectif d'entraînement unique et fermé, un processus initialement appelé optimisation directe des préférences (DPO) et suivi par plusieurs descendants notables. Bien qu'efficaces dans certains contextes réels, nous introduisons de nouveaux critères d'évaluation qui mettent en lumière des lacunes non résolues dans la capacité des méthodes DPO existantes à interpoler entre un modèle de référence pré-entraîné et des mesures empiriques des préférences humaines, ainsi que des compromis inévitables dans la manière dont les réponses de faible et haute qualité sont régularisées et les contraintes gérées. Nos observations motivent alors une alternative de perte de type DPO qui atténue de manière prouvée ces limitations. Les résultats empiriques viennent corroborer des aspects notables de nos analyses.
English
Large language models in the past have typically relied on some form of reinforcement learning with human feedback (RLHF) to better align model responses with human preferences. However, because of oft-observed instabilities when implementing these RLHF pipelines, various reparameterization techniques have recently been introduced to sidestep the need for separately learning an RL reward model. Instead, directly fine-tuning for human preferences is achieved via the minimization of a single closed-form training objective, a process originally referred to as direct preference optimization (DPO) and followed by several notable descendants. Although effective in certain real-world settings, we introduce new evaluation criteria that serve to highlight unresolved shortcomings in the ability of existing DPO methods to interpolate between a pre-trained reference model and empirical measures of human preferences, as well as unavoidable trade-offs in how low- and high-quality responses are regularized and constraints are handled. Our insights then motivate an alternative DPO-like loss that provably mitigates these limitations. Empirical results serve to corroborate notable aspects of our analyses.

Summary

AI-Generated Summary

PDF114November 28, 2024