Bootstrapping van taakgerichte dialoogagenten op basis van grote taalmodellen via zelfgesprekken
Bootstrapping LLM-based Task-Oriented Dialogue Agents via Self-Talk
January 10, 2024
Auteurs: Dennis Ulmer, Elman Mansimov, Kaixiang Lin, Justin Sun, Xibin Gao, Yi Zhang
cs.AI
Samenvatting
Grote taalmodellen (LLMs) zijn krachtige dialoogagenten, maar het specialiseren ervan om een specifieke functie te vervullen kan uitdagend zijn. Instructie-afstemming, d.w.z. het afstemmen van modellen op instructies en voorbeeldreacties gegenereerd door mensen (Ouyang et al., 2022), heeft zich bewezen als een effectieve methode, maar vereist een aantal gegevensmonsters die a) mogelijk niet beschikbaar zijn of b) kostbaar zijn om te genereren. Bovendien neemt deze kost toe wanneer het doel is om het LLM een specifieke workflow binnen een dialoog te laten volgen in plaats van enkele instructies. Geïnspireerd door de zelfspeltechniek in reinforcement learning en het gebruik van LLMs om menselijke agenten te simuleren, stellen we een effectievere methode voor voor het verzamelen van gegevens door middel van LLMs die in verschillende rollen een gesprek voeren. Deze aanpak genereert trainingsgegevens via "zelfgesprekken" van LLMs die kunnen worden verfijnd en gebruikt voor supervised fine-tuning. We introduceren een geautomatiseerde manier om het (gedeeltelijke) succes van een dialoog te meten. Deze metriek wordt gebruikt om de gegenereerde gespreksgegevens te filteren die teruggevoerd worden in het LLM voor training. Op basis van onze geautomatiseerde en menselijke evaluaties van gesprekskwaliteit, tonen we aan dat dergelijke zelfgespreksgegevens de resultaten verbeteren. Daarnaast onderzoeken we de verschillende kenmerken die de kwaliteit van gegenereerde dialogen aantonen en hoe deze kunnen worden verbonden aan hun potentiële nut als trainingsgegevens.
English
Large language models (LLMs) are powerful dialogue agents, but specializing
them towards fulfilling a specific function can be challenging. Instructing
tuning, i.e. tuning models on instruction and sample responses generated by
humans (Ouyang et al., 2022), has proven as an effective method to do so, yet
requires a number of data samples that a) might not be available or b) costly
to generate. Furthermore, this cost increases when the goal is to make the LLM
follow a specific workflow within a dialogue instead of single instructions.
Inspired by the self-play technique in reinforcement learning and the use of
LLMs to simulate human agents, we propose a more effective method for data
collection through LLMs engaging in a conversation in various roles. This
approach generates a training data via "self-talk" of LLMs that can be refined
and utilized for supervised fine-tuning. We introduce an automated way to
measure the (partial) success of a dialogue. This metric is used to filter the
generated conversational data that is fed back in LLM for training. Based on
our automated and human evaluations of conversation quality, we demonstrate
that such self-talk data improves results. In addition, we examine the various
characteristics that showcase the quality of generated dialogues and how they
can be connected to their potential utility as training data.