Muestra, no cuentes: Alineando modelos de lenguaje con retroalimentación demostrada
Show, Don't Tell: Aligning Language Models with Demonstrated Feedback
June 2, 2024
Autores: Omar Shaikh, Michelle Lam, Joey Hejna, Yijia Shao, Michael Bernstein, Diyi Yang
cs.AI
Resumen
Los modelos de lenguaje están alineados para emular la voz colectiva de muchos, lo que resulta en salidas que no se ajustan a nadie en particular. Es posible dirigir a los LLMs lejos de resultados genéricos mediante ajuste fino supervisado o RLHF, pero esto requiere conjuntos de datos prohibitivamente grandes para nuevas tareas ad-hoc. Argumentamos que, en cambio, es posible alinear un LLM a un entorno específico aprovechando un número muy pequeño (<10) de demostraciones como retroalimentación. Nuestro método, Optimización de Tareas Iteradas mediante Demostraciones (DITTO), alinea directamente las salidas del modelo de lenguaje a los comportamientos demostrados por un usuario. Derivado utilizando ideas del aprendizaje por imitación en línea, DITTO genera de manera económica datos de comparación en línea tratando las demostraciones de los usuarios como preferidas sobre la salida del LLM y sus puntos de control intermedios. Evaluamos la capacidad de DITTO para aprender alineación de estilo y tareas a nivel detallado en dominios como artículos de noticias, correos electrónicos y publicaciones de blogs. Además, realizamos un estudio de usuarios solicitando una variedad de demostraciones a los participantes (N=16). En nuestros puntos de referencia y el estudio de usuarios, encontramos que las tasas de victoria de DITTO superan al prompting de pocos ejemplos, al ajuste fino supervisado y a otros métodos de autojuego en un promedio de 19 puntos porcentuales. Al utilizar demostraciones como retroalimentación directamente, DITTO ofrece un método novedoso para la personalización efectiva de LLMs.
English
Language models are aligned to emulate the collective voice of many,
resulting in outputs that align with no one in particular. Steering LLMs away
from generic output is possible through supervised finetuning or RLHF, but
requires prohibitively large datasets for new ad-hoc tasks. We argue that it is
instead possible to align an LLM to a specific setting by leveraging a very
small number (<10) of demonstrations as feedback. Our method, Demonstration
ITerated Task Optimization (DITTO), directly aligns language model outputs to a
user's demonstrated behaviors. Derived using ideas from online imitation
learning, DITTO cheaply generates online comparison data by treating users'
demonstrations as preferred over output from the LLM and its intermediate
checkpoints. We evaluate DITTO's ability to learn fine-grained style and task
alignment across domains such as news articles, emails, and blog posts.
Additionally, we conduct a user study soliciting a range of demonstrations from
participants (N=16). Across our benchmarks and user study, we find that
win-rates for DITTO outperform few-shot prompting, supervised fine-tuning, and
other self-play methods by an average of 19% points. By using demonstrations as
feedback directly, DITTO offers a novel method for effective customization of
LLMs.Summary
AI-Generated Summary