Pilotage des Récompenses avec des Heuristiques Évolutionnaires pour l'Alignement au Moment du Décodage
Reward Steering with Evolutionary Heuristics for Decoding-time Alignment
June 21, 2024
Auteurs: Chia-Yu Hung, Navonil Majumder, Ambuj Mehrish, Soujanya Poria
cs.AI
Résumé
L'applicabilité généralisée et l'omniprésence croissante des LLM (modèles de langage de grande taille) ont suscité un besoin d'aligner les réponses des LLM sur les préférences des utilisateurs et des parties prenantes. De nombreuses approches d'optimisation des préférences ont été proposées, ajustant finement les paramètres des LLM pour atteindre un bon alignement. Cependant, un tel réglage des paramètres est connu pour interférer avec les performances du modèle sur de nombreuses tâches. De plus, suivre l'évolution des préférences des utilisateurs s'avère délicat dans ce contexte. L'alignement au moment du décodage avec guidage par modèle de récompense résout ces problèmes au prix d'un temps d'inférence accru. Néanmoins, la plupart de ces méthodes échouent à trouver le bon équilibre entre exploration et exploitation de la récompense, souvent en raison d'une formulation confondue de ces deux aspects, pour fournir des réponses bien alignées. Pour remédier à cela, nous découplons ces deux aspects et les mettons en œuvre de manière évolutive : l'exploration est imposée par le décodage à partir d'instructions mutées, et l'exploitation est représentée par le remplacement périodique des générations faiblement récompensées par celles bien récompensées. Les preuves empiriques indiquent que cette stratégie surpasse de nombreuses approches d'optimisation des préférences et d'alignement au moment du décodage sur deux benchmarks d'alignement largement acceptés, AlpacaEval 2 et MT-Bench. Notre implémentation sera disponible à l'adresse : https://darwin-alignment.github.io.
English
The widespread applicability and increasing omnipresence of LLMs have
instigated a need to align LLM responses to user and stakeholder preferences.
Many preference optimization approaches have been proposed that fine-tune LLM
parameters to achieve good alignment. However, such parameter tuning is known
to interfere with model performance on many tasks. Moreover, keeping up with
shifting user preferences is tricky in such a situation. Decoding-time
alignment with reward model guidance solves these issues at the cost of
increased inference time. However, most of such methods fail to strike the
right balance between exploration and exploitation of reward -- often due to
the conflated formulation of these two aspects - to give well-aligned
responses. To remedy this we decouple these two aspects and implement them in
an evolutionary fashion: exploration is enforced by decoding from mutated
instructions and exploitation is represented as the periodic replacement of
poorly-rewarded generations with well-rewarded ones. Empirical evidences
indicate that this strategy outperforms many preference optimization and
decode-time alignment approaches on two widely accepted alignment benchmarks
AlpacaEval 2 and MT-Bench. Our implementation will be available at:
https://darwin-alignment.github.io.Summary
AI-Generated Summary