Bootstrapping von auf großen Sprachmodellen basierenden, aufgabenorientierten Dialogagenten durch Selbstgespräche
Bootstrapping LLM-based Task-Oriented Dialogue Agents via Self-Talk
January 10, 2024
Autoren: Dennis Ulmer, Elman Mansimov, Kaixiang Lin, Justin Sun, Xibin Gao, Yi Zhang
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) sind leistungsstarke Dialogagenten, doch ihre Spezialisierung auf eine bestimmte Funktion kann herausfordernd sein. Instruction Tuning, d.h. das Feinabstimmen von Modellen anhand von Anweisungen und von Menschen generierten Beispielantworten (Ouyang et al., 2022), hat sich als effektive Methode erwiesen, erfordert jedoch eine Vielzahl von Datenproben, die a) möglicherweise nicht verfügbar sind oder b) kostspielig zu generieren sind. Darüber hinaus steigen diese Kosten, wenn das Ziel darin besteht, das LLM dazu zu bringen, einen spezifischen Workflow innerhalb eines Dialogs zu befolgen, anstatt einzelne Anweisungen. Inspiriert von der Self-Play-Technik im Reinforcement Learning und der Verwendung von LLMs zur Simulation menschlicher Agenten, schlagen wir eine effektivere Methode zur Datensammlung vor, bei der LLMs in verschiedenen Rollen in einen Dialog treten. Dieser Ansatz generiert Trainingsdaten durch „Selbstgespräche“ von LLMs, die verfeinert und für das überwachte Feinabstimmen genutzt werden können. Wir führen eine automatisierte Methode ein, um den (teilweisen) Erfolg eines Dialogs zu messen. Diese Metrik wird verwendet, um die generierten Dialogdaten zu filtern, die zurück in das LLM für das Training eingespeist werden. Basierend auf unseren automatisierten und menschlichen Bewertungen der Dialogqualität zeigen wir, dass solche Selbstgesprächsdaten die Ergebnisse verbessern. Zusätzlich untersuchen wir verschiedene Merkmale, die die Qualität der generierten Dialoge aufzeigen und wie sie mit ihrem potenziellen Nutzen als Trainingsdaten verbunden werden können.
English
Large language models (LLMs) are powerful dialogue agents, but specializing
them towards fulfilling a specific function can be challenging. Instructing
tuning, i.e. tuning models on instruction and sample responses generated by
humans (Ouyang et al., 2022), has proven as an effective method to do so, yet
requires a number of data samples that a) might not be available or b) costly
to generate. Furthermore, this cost increases when the goal is to make the LLM
follow a specific workflow within a dialogue instead of single instructions.
Inspired by the self-play technique in reinforcement learning and the use of
LLMs to simulate human agents, we propose a more effective method for data
collection through LLMs engaging in a conversation in various roles. This
approach generates a training data via "self-talk" of LLMs that can be refined
and utilized for supervised fine-tuning. We introduce an automated way to
measure the (partial) success of a dialogue. This metric is used to filter the
generated conversational data that is fed back in LLM for training. Based on
our automated and human evaluations of conversation quality, we demonstrate
that such self-talk data improves results. In addition, we examine the various
characteristics that showcase the quality of generated dialogues and how they
can be connected to their potential utility as training data.