Zeigen, nicht erzählen: Ausrichtung von Sprachmodellen anhand von demonstriertem Feedback.
Show, Don't Tell: Aligning Language Models with Demonstrated Feedback
June 2, 2024
Autoren: Omar Shaikh, Michelle Lam, Joey Hejna, Yijia Shao, Michael Bernstein, Diyi Yang
cs.AI
Zusammenfassung
Sprachmodelle sind darauf ausgerichtet, die kollektive Stimme vieler zu emulieren, was zu Ausgaben führt, die mit niemandem im Speziellen übereinstimmen. Das Lenken von LLMs weg von generischen Ausgaben ist durch überwachtes Feintuning oder RLHF möglich, erfordert jedoch unverhältnismäßig große Datensätze für neue Ad-hoc-Aufgaben. Wir argumentieren, dass es stattdessen möglich ist, ein LLM auf eine bestimmte Umgebung auszurichten, indem man eine sehr geringe Anzahl (<10) von Demonstrationen als Rückmeldung nutzt. Unsere Methode, Demonstration ITerated Task Optimization (DITTO), richtet die Ausgaben des Sprachmodells direkt nach dem gezeigten Verhalten eines Benutzers aus. Abgeleitet aus Ideen des Online-Imitationslernens, generiert DITTO kostengünstig Online-Vergleichsdaten, indem es die Demonstrationen der Benutzer gegenüber den Ausgaben des LLM und seinen Zwischenständen bevorzugt behandelt. Wir bewerten die Fähigkeit von DITTO, fein abgestimmten Stil und Aufgabenanpassung in Bereichen wie Nachrichtenartikeln, E-Mails und Blog-Beiträgen zu erlernen. Darüber hinaus führen wir eine Benutzerstudie durch, bei der eine Vielzahl von Demonstrationen von Teilnehmern (N=16) angefordert wird. Über unsere Benchmarks und Benutzerstudie hinweg stellen wir fest, dass die Gewinnraten von DITTO das Few-Shot-Prompting, überwachtes Feintuning und andere Self-Play-Methoden im Durchschnitt um 19 Prozentpunkte übertreffen. Indem es Demonstrationen direkt als Rückmeldung verwendet, bietet DITTO eine neuartige Methode zur effektiven Anpassung von LLMs.
English
Language models are aligned to emulate the collective voice of many,
resulting in outputs that align with no one in particular. Steering LLMs away
from generic output is possible through supervised finetuning or RLHF, but
requires prohibitively large datasets for new ad-hoc tasks. We argue that it is
instead possible to align an LLM to a specific setting by leveraging a very
small number (<10) of demonstrations as feedback. Our method, Demonstration
ITerated Task Optimization (DITTO), directly aligns language model outputs to a
user's demonstrated behaviors. Derived using ideas from online imitation
learning, DITTO cheaply generates online comparison data by treating users'
demonstrations as preferred over output from the LLM and its intermediate
checkpoints. We evaluate DITTO's ability to learn fine-grained style and task
alignment across domains such as news articles, emails, and blog posts.
Additionally, we conduct a user study soliciting a range of demonstrations from
participants (N=16). Across our benchmarks and user study, we find that
win-rates for DITTO outperform few-shot prompting, supervised fine-tuning, and
other self-play methods by an average of 19% points. By using demonstrations as
feedback directly, DITTO offers a novel method for effective customization of
LLMs.Summary
AI-Generated Summary