Montrer, ne pas dire : Aligner les modèles de langage avec des retours démontrés
Show, Don't Tell: Aligning Language Models with Demonstrated Feedback
June 2, 2024
Auteurs: Omar Shaikh, Michelle Lam, Joey Hejna, Yijia Shao, Michael Bernstein, Diyi Yang
cs.AI
Résumé
Les modèles de langage sont alignés pour imiter la voix collective de nombreux individus, ce qui donne lieu à des sorties qui ne correspondent à personne en particulier. Il est possible de guider les LLM (modèles de langage de grande taille) pour éviter des sorties génériques grâce à un ajustement supervisé ou à l'apprentissage par renforcement avec feedback humain (RLHF), mais cela nécessite des jeux de données prohibitivement volumineux pour de nouvelles tâches ad hoc. Nous soutenons qu'il est possible d'aligner un LLM sur un contexte spécifique en exploitant un très petit nombre (<10) de démonstrations comme feedback. Notre méthode, l'Optimisation Itérative de Tâche par Démonstration (DITTO), aligne directement les sorties du modèle de langage sur les comportements démontrés par un utilisateur. Inspirée des idées de l'apprentissage par imitation en ligne, DITTO génère de manière économique des données de comparaison en ligne en considérant les démonstrations des utilisateurs comme préférables aux sorties du LLM et à ses points de contrôle intermédiaires. Nous évaluons la capacité de DITTO à apprendre un alignement fin du style et de la tâche dans des domaines tels que les articles de presse, les e-mails et les billets de blog. De plus, nous menons une étude utilisateur sollicitant une variété de démonstrations de la part des participants (N=16). À travers nos benchmarks et notre étude utilisateur, nous constatons que les taux de victoire de DITTO surpassent ceux de l'incitation en few-shot, de l'ajustement supervisé et d'autres méthodes de jeu autonome par une moyenne de 19 points de pourcentage. En utilisant directement les démonstrations comme feedback, DITTO offre une méthode novatrice pour la personnalisation efficace des LLM.
English
Language models are aligned to emulate the collective voice of many,
resulting in outputs that align with no one in particular. Steering LLMs away
from generic output is possible through supervised finetuning or RLHF, but
requires prohibitively large datasets for new ad-hoc tasks. We argue that it is
instead possible to align an LLM to a specific setting by leveraging a very
small number (<10) of demonstrations as feedback. Our method, Demonstration
ITerated Task Optimization (DITTO), directly aligns language model outputs to a
user's demonstrated behaviors. Derived using ideas from online imitation
learning, DITTO cheaply generates online comparison data by treating users'
demonstrations as preferred over output from the LLM and its intermediate
checkpoints. We evaluate DITTO's ability to learn fine-grained style and task
alignment across domains such as news articles, emails, and blog posts.
Additionally, we conduct a user study soliciting a range of demonstrations from
participants (N=16). Across our benchmarks and user study, we find that
win-rates for DITTO outperform few-shot prompting, supervised fine-tuning, and
other self-play methods by an average of 19% points. By using demonstrations as
feedback directly, DITTO offers a novel method for effective customization of
LLMs.Summary
AI-Generated Summary