ChatPaper.aiChatPaper

Laat zien, niet vertellen: Taalmodellen afstemmen op gedemonstreerde feedback

Show, Don't Tell: Aligning Language Models with Demonstrated Feedback

June 2, 2024
Auteurs: Omar Shaikh, Michelle Lam, Joey Hejna, Yijia Shao, Michael Bernstein, Diyi Yang
cs.AI

Samenvatting

Taalmodelle zijn afgestemd om het collectieve stemgeluid van velen na te bootsen, wat resulteert in uitvoer die niet specifiek op één persoon is afgestemd. Het is mogelijk om grote taalmodelle (LLMs) weg te sturen van generieke uitvoer door middel van supervised finetuning of RLHF, maar dit vereist onpraktisch grote datasets voor nieuwe ad-hoc taken. Wij beargumenteren dat het in plaats daarvan mogelijk is om een LLM af te stemmen op een specifieke setting door gebruik te maken van een zeer klein aantal (<10) demonstraties als feedback. Onze methode, Demonstration ITerated Task Optimization (DITTO), stemt de uitvoer van taalmodelle direct af op het gedrag dat een gebruiker demonstreert. Gebaseerd op ideeën uit online imitatieleren, genereert DITTO goedkoop online vergelijkingsdata door de demonstraties van gebruikers te behandelen als voorkeur boven de uitvoer van het LLM en zijn tussenliggende checkpoints. We evalueren het vermogen van DITTO om fijnmazige stijl- en taakafstemming te leren over domeinen zoals nieuwsartikelen, e-mails en blogposts. Daarnaast voeren we een gebruikersstudie uit waarin we een reeks demonstraties verzamelen van deelnemers (N=16). Over onze benchmarks en gebruikersstudie heen vinden we dat de win-rates voor DITTO gemiddeld 19% punten hoger liggen dan few-shot prompting, supervised fine-tuning en andere self-play methoden. Door demonstraties direct als feedback te gebruiken, biedt DITTO een nieuwe methode voor effectieve aanpassing van LLMs.
English
Language models are aligned to emulate the collective voice of many, resulting in outputs that align with no one in particular. Steering LLMs away from generic output is possible through supervised finetuning or RLHF, but requires prohibitively large datasets for new ad-hoc tasks. We argue that it is instead possible to align an LLM to a specific setting by leveraging a very small number (<10) of demonstrations as feedback. Our method, Demonstration ITerated Task Optimization (DITTO), directly aligns language model outputs to a user's demonstrated behaviors. Derived using ideas from online imitation learning, DITTO cheaply generates online comparison data by treating users' demonstrations as preferred over output from the LLM and its intermediate checkpoints. We evaluate DITTO's ability to learn fine-grained style and task alignment across domains such as news articles, emails, and blog posts. Additionally, we conduct a user study soliciting a range of demonstrations from participants (N=16). Across our benchmarks and user study, we find that win-rates for DITTO outperform few-shot prompting, supervised fine-tuning, and other self-play methods by an average of 19% points. By using demonstrations as feedback directly, DITTO offers a novel method for effective customization of LLMs.
PDF331February 7, 2026