ChatPaper.aiChatPaper

Mostra, non Dire: Allineamento dei Modelli Linguistici con Feedback Dimostrato

Show, Don't Tell: Aligning Language Models with Demonstrated Feedback

June 2, 2024
Autori: Omar Shaikh, Michelle Lam, Joey Hejna, Yijia Shao, Michael Bernstein, Diyi Yang
cs.AI

Abstract

I modelli linguistici sono allineati per emulare la voce collettiva di molti, producendo risultati che non si allineano a nessuno in particolare. È possibile orientare i LLM lontano da output generici attraverso il fine-tuning supervisionato o il RLHF, ma ciò richiede dataset proibitivamente grandi per nuovi task ad hoc. Sosteniamo che sia invece possibile allineare un LLM a un contesto specifico sfruttando un numero molto ridotto (<10) di dimostrazioni come feedback. Il nostro metodo, Demonstration ITerated Task Optimization (DITTO), allinea direttamente gli output del modello linguistico ai comportamenti dimostrati da un utente. Derivato utilizzando idee dall'apprendimento per imitazione online, DITTO genera in modo economico dati di confronto online trattando le dimostrazioni degli utenti come preferite rispetto all'output del LLM e dei suoi checkpoint intermedi. Valutiamo la capacità di DITTO di apprendere un allineamento fine di stile e task in domini come articoli di notizie, email e post di blog. Inoltre, conduciamo uno studio con utenti che forniscono una gamma di dimostrazioni (N=16). Nei nostri benchmark e nello studio con utenti, riscontriamo che i tassi di vittoria per DITTO superano il prompting few-shot, il fine-tuning supervisionato e altri metodi di self-play di una media del 19%. Utilizzando direttamente le dimostrazioni come feedback, DITTO offre un metodo innovativo per la personalizzazione efficace dei LLM.
English
Language models are aligned to emulate the collective voice of many, resulting in outputs that align with no one in particular. Steering LLMs away from generic output is possible through supervised finetuning or RLHF, but requires prohibitively large datasets for new ad-hoc tasks. We argue that it is instead possible to align an LLM to a specific setting by leveraging a very small number (<10) of demonstrations as feedback. Our method, Demonstration ITerated Task Optimization (DITTO), directly aligns language model outputs to a user's demonstrated behaviors. Derived using ideas from online imitation learning, DITTO cheaply generates online comparison data by treating users' demonstrations as preferred over output from the LLM and its intermediate checkpoints. We evaluate DITTO's ability to learn fine-grained style and task alignment across domains such as news articles, emails, and blog posts. Additionally, we conduct a user study soliciting a range of demonstrations from participants (N=16). Across our benchmarks and user study, we find that win-rates for DITTO outperform few-shot prompting, supervised fine-tuning, and other self-play methods by an average of 19% points. By using demonstrations as feedback directly, DITTO offers a novel method for effective customization of LLMs.
PDF331February 7, 2026