Загрузка диалоговых агентов, ориентированных на задачи, на основе LLM через самообучение
Bootstrapping LLM-based Task-Oriented Dialogue Agents via Self-Talk
January 10, 2024
Авторы: Dennis Ulmer, Elman Mansimov, Kaixiang Lin, Justin Sun, Xibin Gao, Yi Zhang
cs.AI
Аннотация
Крупные языковые модели (LLM) являются мощными диалоговыми агентами, однако их специализация для выполнения конкретных задач может быть сложной. Инструктивная настройка, то есть настройка моделей на основе инструкций и примеров ответов, созданных людьми (Ouyang et al., 2022), доказала свою эффективность, но требует значительного количества данных, которые а) могут быть недоступны или б) дорогостоящи в создании. Более того, эти затраты возрастают, когда цель заключается в том, чтобы LLM следовала определенному рабочему процессу в рамках диалога, а не отдельным инструкциям. Вдохновленные техникой самоигры в обучении с подкреплением и использованием LLM для симуляции человеческих агентов, мы предлагаем более эффективный метод сбора данных, при котором LLM ведут диалог в различных ролях. Этот подход генерирует обучающие данные через "самообщение" LLM, которые могут быть уточнены и использованы для контролируемой тонкой настройки. Мы представляем автоматизированный способ измерения (частичного) успеха диалога. Этот метрический показатель используется для фильтрации сгенерированных диалоговых данных, которые затем возвращаются в LLM для обучения. На основе наших автоматизированных и человеческих оценок качества диалогов мы демонстрируем, что такие данные, полученные через самообщение, улучшают результаты. Кроме того, мы исследуем различные характеристики, которые демонстрируют качество сгенерированных диалогов и их потенциальную полезность в качестве обучающих данных.
English
Large language models (LLMs) are powerful dialogue agents, but specializing
them towards fulfilling a specific function can be challenging. Instructing
tuning, i.e. tuning models on instruction and sample responses generated by
humans (Ouyang et al., 2022), has proven as an effective method to do so, yet
requires a number of data samples that a) might not be available or b) costly
to generate. Furthermore, this cost increases when the goal is to make the LLM
follow a specific workflow within a dialogue instead of single instructions.
Inspired by the self-play technique in reinforcement learning and the use of
LLMs to simulate human agents, we propose a more effective method for data
collection through LLMs engaging in a conversation in various roles. This
approach generates a training data via "self-talk" of LLMs that can be refined
and utilized for supervised fine-tuning. We introduce an automated way to
measure the (partial) success of a dialogue. This metric is used to filter the
generated conversational data that is fed back in LLM for training. Based on
our automated and human evaluations of conversation quality, we demonstrate
that such self-talk data improves results. In addition, we examine the various
characteristics that showcase the quality of generated dialogues and how they
can be connected to their potential utility as training data.