ChatPaper.aiChatPaper

Показывать, а не рассказывать: Выравнивание языковых моделей с продемонстрированной обратной связью

Show, Don't Tell: Aligning Language Models with Demonstrated Feedback

June 2, 2024
Авторы: Omar Shaikh, Michelle Lam, Joey Hejna, Yijia Shao, Michael Bernstein, Diyi Yang
cs.AI

Аннотация

Языковые модели нацелены на эмуляцию коллективного голоса многих, что приводит к результатам, не соответствующим ни одному конкретному лицу. Отклонение LLM от общего вывода возможно путем наблюдения за обучением или RLHF, но требует чрезмерно больших наборов данных для новых ад-хок задач. Мы утверждаем, что вместо этого возможно настроить LLM на конкретную среду, используя очень небольшое количество (<10) демонстраций в качестве обратной связи. Наш метод, Оптимизация Задач с Повторением Демонстраций (DITTO), напрямую настраивает выводы языковой модели на поведение, продемонстрированное пользователем. Разработанный на основе идей онлайн имитационного обучения, DITTO дешево генерирует онлайн данные сравнения, рассматривая демонстрации пользователей как предпочтительные перед выводом из LLM и его промежуточными контрольными точками. Мы оцениваем способность DITTO к изучению тонкой стилистики и выравниванию задач в различных областях, таких как новостные статьи, электронные письма и блоги. Кроме того, мы проводим пользовательское исследование, запрашивая различные демонстрации у участников (N=16). По результатам наших испытаний и пользовательского исследования мы обнаруживаем, что показатели успеха DITTO превосходят методы обучения с небольшим числом примеров, наблюдение за обучением и другие методы самоигры в среднем на 19% пунктов. Используя демонстрации в качестве обратной связи напрямую, DITTO предлагает новый метод эффективной настройки LLM.
English
Language models are aligned to emulate the collective voice of many, resulting in outputs that align with no one in particular. Steering LLMs away from generic output is possible through supervised finetuning or RLHF, but requires prohibitively large datasets for new ad-hoc tasks. We argue that it is instead possible to align an LLM to a specific setting by leveraging a very small number (<10) of demonstrations as feedback. Our method, Demonstration ITerated Task Optimization (DITTO), directly aligns language model outputs to a user's demonstrated behaviors. Derived using ideas from online imitation learning, DITTO cheaply generates online comparison data by treating users' demonstrations as preferred over output from the LLM and its intermediate checkpoints. We evaluate DITTO's ability to learn fine-grained style and task alignment across domains such as news articles, emails, and blog posts. Additionally, we conduct a user study soliciting a range of demonstrations from participants (N=16). Across our benchmarks and user study, we find that win-rates for DITTO outperform few-shot prompting, supervised fine-tuning, and other self-play methods by an average of 19% points. By using demonstrations as feedback directly, DITTO offers a novel method for effective customization of LLMs.

Summary

AI-Generated Summary

PDF341December 12, 2024