ChatPaper.aiChatPaper

Nuovi Desiderata per l'Ottimizzazione Diretta delle Preferenze

New Desiderata for Direct Preference Optimization

July 12, 2024
Autori: Xiangkun Hu, Tong He, David Wipf
cs.AI

Abstract

In passato, i grandi modelli linguistici si sono generalmente affidati a qualche forma di apprendimento per rinforzo con feedback umano (RLHF) per allineare meglio le risposte del modello alle preferenze umane. Tuttavia, a causa delle instabilità spesso osservate durante l'implementazione di queste pipeline RLHF, recentemente sono state introdotte varie tecniche di riparametrizzazione per evitare la necessità di apprendere separatamente un modello di ricompensa RL. Invece, il fine-tuning diretto per le preferenze umane viene ottenuto attraverso la minimizzazione di un singolo obiettivo di addestramento in forma chiusa, un processo originariamente denominato ottimizzazione diretta delle preferenze (DPO) e seguito da diversi discendenti notevoli. Sebbene efficaci in certi contesti reali, introduciamo nuovi criteri di valutazione che evidenziano carenze irrisolte nella capacità dei metodi DPO esistenti di interpolare tra un modello di riferimento pre-addestrato e misure empiriche delle preferenze umane, nonché compromessi inevitabili nel modo in cui le risposte di bassa e alta qualità vengono regolarizzate e i vincoli gestiti. Le nostre intuizioni motivano quindi una perdita alternativa simile al DPO che mitiga provabilmente queste limitazioni. I risultati empirici servono a corroborare aspetti notevoli delle nostre analisi.
English
Large language models in the past have typically relied on some form of reinforcement learning with human feedback (RLHF) to better align model responses with human preferences. However, because of oft-observed instabilities when implementing these RLHF pipelines, various reparameterization techniques have recently been introduced to sidestep the need for separately learning an RL reward model. Instead, directly fine-tuning for human preferences is achieved via the minimization of a single closed-form training objective, a process originally referred to as direct preference optimization (DPO) and followed by several notable descendants. Although effective in certain real-world settings, we introduce new evaluation criteria that serve to highlight unresolved shortcomings in the ability of existing DPO methods to interpolate between a pre-trained reference model and empirical measures of human preferences, as well as unavoidable trade-offs in how low- and high-quality responses are regularized and constraints are handled. Our insights then motivate an alternative DPO-like loss that provably mitigates these limitations. Empirical results serve to corroborate notable aspects of our analyses.
PDF114November 28, 2024