Mostre, Não Conte: Alinhando Modelos de Linguagem com Feedback Demonstrado
Show, Don't Tell: Aligning Language Models with Demonstrated Feedback
June 2, 2024
Autores: Omar Shaikh, Michelle Lam, Joey Hejna, Yijia Shao, Michael Bernstein, Diyi Yang
cs.AI
Resumo
Modelos de linguagem são alinhados para emular a voz coletiva de muitos, resultando em saídas que não se alinham especificamente com ninguém. Direcionar LLMs para longe de saídas genéricas é possível por meio de ajuste fino supervisionado ou RLHF, mas requer conjuntos de dados proibitivamente grandes para novas tarefas ad hoc. Argumentamos que, em vez disso, é possível alinhar um LLM a um cenário específico aproveitando um número muito pequeno (<10) de demonstrações como feedback. Nosso método, Otimização de Tarefa Iterada por Demonstração (DITTO), alinha diretamente as saídas do modelo de linguagem aos comportamentos demonstrados pelo usuário. Derivado de ideias de aprendizado por imitação online, o DITTO gera de forma econômica dados de comparação online tratando as demonstrações dos usuários como preferidas em relação às saídas do LLM e seus pontos de verificação intermediários. Avaliamos a capacidade do DITTO de aprender alinhamento de estilo e tarefa em nível refinado em domínios como artigos de notícias, e-mails e posts de blog. Além disso, realizamos um estudo com usuários solicitando uma variedade de demonstrações dos participantes (N=16). Em nossos benchmarks e estudo com usuários, descobrimos que as taxas de vitória do DITTO superam o prompting few-shot, o ajuste fino supervisionado e outros métodos de autojogo em uma média de 19 pontos percentuais. Ao usar demonstrações como feedback diretamente, o DITTO oferece um método novo e eficaz para a personalização de LLMs.
English
Language models are aligned to emulate the collective voice of many,
resulting in outputs that align with no one in particular. Steering LLMs away
from generic output is possible through supervised finetuning or RLHF, but
requires prohibitively large datasets for new ad-hoc tasks. We argue that it is
instead possible to align an LLM to a specific setting by leveraging a very
small number (<10) of demonstrations as feedback. Our method, Demonstration
ITerated Task Optimization (DITTO), directly aligns language model outputs to a
user's demonstrated behaviors. Derived using ideas from online imitation
learning, DITTO cheaply generates online comparison data by treating users'
demonstrations as preferred over output from the LLM and its intermediate
checkpoints. We evaluate DITTO's ability to learn fine-grained style and task
alignment across domains such as news articles, emails, and blog posts.
Additionally, we conduct a user study soliciting a range of demonstrations from
participants (N=16). Across our benchmarks and user study, we find that
win-rates for DITTO outperform few-shot prompting, supervised fine-tuning, and
other self-play methods by an average of 19% points. By using demonstrations as
feedback directly, DITTO offers a novel method for effective customization of
LLMs.