Amorçage d'agents de dialogue orientés tâches basés sur LLM via auto-conversation
Bootstrapping LLM-based Task-Oriented Dialogue Agents via Self-Talk
January 10, 2024
Auteurs: Dennis Ulmer, Elman Mansimov, Kaixiang Lin, Justin Sun, Xibin Gao, Yi Zhang
cs.AI
Résumé
Les grands modèles de langage (LLMs) sont des agents conversationnels puissants, mais les spécialiser pour accomplir une fonction spécifique peut s'avérer complexe. Le réglage par instruction, c'est-à-dire l'ajustement des modèles sur des instructions et des réponses exemples générées par des humains (Ouyang et al., 2022), s'est révélé être une méthode efficace pour y parvenir, mais nécessite un nombre important d'échantillons de données qui a) pourraient ne pas être disponibles ou b) être coûteux à générer. De plus, ce coût augmente lorsque l'objectif est de faire suivre au LLM un flux de travail spécifique au sein d'un dialogue plutôt que des instructions isolées. Inspirés par la technique de l'auto-apprentissage en apprentissage par renforcement et par l'utilisation des LLMs pour simuler des agents humains, nous proposons une méthode plus efficace pour la collecte de données via des LLMs engagés dans une conversation sous différents rôles. Cette approche génère des données d'entraînement via un "dialogue interne" des LLMs, qui peuvent être affinées et utilisées pour un réglage supervisé. Nous introduisons une méthode automatisée pour mesurer le succès (partiel) d'un dialogue. Cette métrique est utilisée pour filtrer les données conversationnelles générées, qui sont ensuite réinjectées dans le LLM pour l'entraînement. Sur la base de nos évaluations automatisées et humaines de la qualité des conversations, nous démontrons que ces données de dialogue interne améliorent les résultats. En outre, nous examinons les différentes caractéristiques qui illustrent la qualité des dialogues générés et comment elles peuvent être liées à leur utilité potentielle en tant que données d'entraînement.
English
Large language models (LLMs) are powerful dialogue agents, but specializing
them towards fulfilling a specific function can be challenging. Instructing
tuning, i.e. tuning models on instruction and sample responses generated by
humans (Ouyang et al., 2022), has proven as an effective method to do so, yet
requires a number of data samples that a) might not be available or b) costly
to generate. Furthermore, this cost increases when the goal is to make the LLM
follow a specific workflow within a dialogue instead of single instructions.
Inspired by the self-play technique in reinforcement learning and the use of
LLMs to simulate human agents, we propose a more effective method for data
collection through LLMs engaging in a conversation in various roles. This
approach generates a training data via "self-talk" of LLMs that can be refined
and utilized for supervised fine-tuning. We introduce an automated way to
measure the (partial) success of a dialogue. This metric is used to filter the
generated conversational data that is fed back in LLM for training. Based on
our automated and human evaluations of conversation quality, we demonstrate
that such self-talk data improves results. In addition, we examine the various
characteristics that showcase the quality of generated dialogues and how they
can be connected to their potential utility as training data.