Mostre, Não Conte: Alinhando Modelos de Linguagem com Feedback Demonstrado

Resumo

Modelos de linguagem são alinhados para emular a voz coletiva de muitos, resultando em saídas que não se alinham especificamente com ninguém. Direcionar LLMs para longe de saídas genéricas é possível por meio de ajuste fino supervisionado ou RLHF, mas requer conjuntos de dados proibitivamente grandes para novas tarefas ad hoc. Argumentamos que, em vez disso, é possível alinhar um LLM a um cenário específico aproveitando um número muito pequeno (<10) de demonstrações como feedback. Nosso método, Otimização de Tarefa Iterada por Demonstração (DITTO), alinha diretamente as saídas do modelo de linguagem aos comportamentos demonstrados pelo usuário. Derivado de ideias de aprendizado por imitação online, o DITTO gera de forma econômica dados de comparação online tratando as demonstrações dos usuários como preferidas em relação às saídas do LLM e seus pontos de verificação intermediários. Avaliamos a capacidade do DITTO de aprender alinhamento de estilo e tarefa em nível refinado em domínios como artigos de notícias, e-mails e posts de blog. Além disso, realizamos um estudo com usuários solicitando uma variedade de demonstrações dos participantes (N=16). Em nossos benchmarks e estudo com usuários, descobrimos que as taxas de vitória do DITTO superam o prompting few-shot, o ajuste fino supervisionado e outros métodos de autojogo em uma média de 19 pontos percentuais. Ao usar demonstrações como feedback diretamente, o DITTO oferece um método novo e eficaz para a personalização de LLMs.

English

Language models are aligned to emulate the collective voice of many, resulting in outputs that align with no one in particular. Steering LLMs away from generic output is possible through supervised finetuning or RLHF, but requires prohibitively large datasets for new ad-hoc tasks. We argue that it is instead possible to align an LLM to a specific setting by leveraging a very small number (<10) of demonstrations as feedback. Our method, Demonstration ITerated Task Optimization (DITTO), directly aligns language model outputs to a user's demonstrated behaviors. Derived using ideas from online imitation learning, DITTO cheaply generates online comparison data by treating users' demonstrations as preferred over output from the LLM and its intermediate checkpoints. We evaluate DITTO's ability to learn fine-grained style and task alignment across domains such as news articles, emails, and blog posts. Additionally, we conduct a user study soliciting a range of demonstrations from participants (N=16). Across our benchmarks and user study, we find that win-rates for DITTO outperform few-shot prompting, supervised fine-tuning, and other self-play methods by an average of 19% points. By using demonstrations as feedback directly, DITTO offers a novel method for effective customization of LLMs.

Mostre, Não Conte: Alinhando Modelos de Linguagem com Feedback Demonstrado

Show, Don't Tell: Aligning Language Models with Demonstrated Feedback

Resumo

Support