Inicialização de Agentes de Diálogo Orientados a Tarefas Baseados em LLM por meio de Auto-Diálogo
Bootstrapping LLM-based Task-Oriented Dialogue Agents via Self-Talk
January 10, 2024
Autores: Dennis Ulmer, Elman Mansimov, Kaixiang Lin, Justin Sun, Xibin Gao, Yi Zhang
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) são agentes de diálogo poderosos, mas especializá-los para cumprir uma função específica pode ser desafiador. O ajuste por instrução, ou seja, o ajuste de modelos em instruções e respostas de exemplo geradas por humanos (Ouyang et al., 2022), mostrou-se um método eficaz para isso, mas requer uma quantidade de amostras de dados que a) podem não estar disponíveis ou b) são custosas de gerar. Além disso, esse custo aumenta quando o objetivo é fazer o LLM seguir um fluxo de trabalho específico dentro de um diálogo, em vez de instruções isoladas. Inspirados pela técnica de auto-jogo no aprendizado por reforço e pelo uso de LLMs para simular agentes humanos, propomos um método mais eficaz para coleta de dados por meio de LLMs que se envolvem em uma conversa em vários papéis. Essa abordagem gera dados de treinamento por meio do "auto-diálogo" de LLMs, que podem ser refinados e utilizados para ajuste supervisionado. Introduzimos uma maneira automatizada de medir o (parcial) sucesso de um diálogo. Essa métrica é usada para filtrar os dados conversacionais gerados que são realimentados no LLM para treinamento. Com base em nossas avaliações automatizadas e humanas da qualidade das conversas, demonstramos que esses dados de auto-diálogo melhoram os resultados. Além disso, examinamos as várias características que demonstram a qualidade dos diálogos gerados e como elas podem estar conectadas à sua utilidade potencial como dados de treinamento.
English
Large language models (LLMs) are powerful dialogue agents, but specializing
them towards fulfilling a specific function can be challenging. Instructing
tuning, i.e. tuning models on instruction and sample responses generated by
humans (Ouyang et al., 2022), has proven as an effective method to do so, yet
requires a number of data samples that a) might not be available or b) costly
to generate. Furthermore, this cost increases when the goal is to make the LLM
follow a specific workflow within a dialogue instead of single instructions.
Inspired by the self-play technique in reinforcement learning and the use of
LLMs to simulate human agents, we propose a more effective method for data
collection through LLMs engaging in a conversation in various roles. This
approach generates a training data via "self-talk" of LLMs that can be refined
and utilized for supervised fine-tuning. We introduce an automated way to
measure the (partial) success of a dialogue. This metric is used to filter the
generated conversational data that is fed back in LLM for training. Based on
our automated and human evaluations of conversation quality, we demonstrate
that such self-talk data improves results. In addition, we examine the various
characteristics that showcase the quality of generated dialogues and how they
can be connected to their potential utility as training data.