ChatPaper.aiChatPaper

Inicialización de Agentes de Diálogo Orientados a Tareas Basados en LLM mediante Autoconversación

Bootstrapping LLM-based Task-Oriented Dialogue Agents via Self-Talk

January 10, 2024
Autores: Dennis Ulmer, Elman Mansimov, Kaixiang Lin, Justin Sun, Xibin Gao, Yi Zhang
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) son agentes de diálogo potentes, pero especializarlos para cumplir una función específica puede ser un desafío. El ajuste por instrucción, es decir, ajustar los modelos en instrucciones y respuestas de ejemplo generadas por humanos (Ouyang et al., 2022), ha demostrado ser un método efectivo para lograrlo, aunque requiere una cantidad de muestras de datos que a) podrían no estar disponibles o b) son costosas de generar. Además, este costo aumenta cuando el objetivo es hacer que el LLM siga un flujo de trabajo específico dentro de un diálogo en lugar de instrucciones individuales. Inspirados por la técnica de autojuego en el aprendizaje por refuerzo y el uso de LLMs para simular agentes humanos, proponemos un método más efectivo para la recopilación de datos mediante LLMs que participan en una conversación en diversos roles. Este enfoque genera datos de entrenamiento a través del "diálogo interno" de los LLMs, que pueden refinarse y utilizarse para el ajuste fino supervisado. Introducimos una forma automatizada de medir el éxito (parcial) de un diálogo. Esta métrica se utiliza para filtrar los datos conversacionales generados que se retroalimentan en el LLM para su entrenamiento. Basándonos en nuestras evaluaciones automatizadas y humanas de la calidad de las conversaciones, demostramos que estos datos de diálogo interno mejoran los resultados. Además, examinamos las diversas características que muestran la calidad de los diálogos generados y cómo pueden estar conectadas a su utilidad potencial como datos de entrenamiento.
English
Large language models (LLMs) are powerful dialogue agents, but specializing them towards fulfilling a specific function can be challenging. Instructing tuning, i.e. tuning models on instruction and sample responses generated by humans (Ouyang et al., 2022), has proven as an effective method to do so, yet requires a number of data samples that a) might not be available or b) costly to generate. Furthermore, this cost increases when the goal is to make the LLM follow a specific workflow within a dialogue instead of single instructions. Inspired by the self-play technique in reinforcement learning and the use of LLMs to simulate human agents, we propose a more effective method for data collection through LLMs engaging in a conversation in various roles. This approach generates a training data via "self-talk" of LLMs that can be refined and utilized for supervised fine-tuning. We introduce an automated way to measure the (partial) success of a dialogue. This metric is used to filter the generated conversational data that is fed back in LLM for training. Based on our automated and human evaluations of conversation quality, we demonstrate that such self-talk data improves results. In addition, we examine the various characteristics that showcase the quality of generated dialogues and how they can be connected to their potential utility as training data.
PDF180December 15, 2024