Generación Fiel de Conjuntos de Datos Conversacionales Basados en Personas con Modelos de Lenguaje a Gran Escala
Faithful Persona-based Conversational Dataset Generation with Large Language Models
December 15, 2023
Autores: Pegah Jandaghi, XiangHai Sheng, Xinyi Bai, Jay Pujara, Hakim Sidahmed
cs.AI
Resumen
Los conjuntos de datos conversacionales de alta calidad son esenciales para desarrollar modelos de IA que puedan comunicarse con los usuarios. Una forma de fomentar interacciones más profundas entre un chatbot y su usuario es a través de las personas, aspectos del carácter del usuario que proporcionan información sobre su personalidad, motivaciones y comportamientos. Entrenar modelos de Procesamiento del Lenguaje Natural (NLP) en un conjunto de datos diverso y completo basado en personas puede llevar a modelos conversacionales que creen una conexión más profunda con el usuario y mantengan su interés. En este artículo, aprovechamos el poder de los Modelos de Lenguaje de Gran Escala (LLMs) para crear un conjunto de datos conversacionales grande y de alta calidad a partir de un conjunto de datos inicial. Proponemos un marco de arquitectura Generador-Crítico para expandir el conjunto de datos inicial, mejorando la calidad de sus conversaciones. El Generador es un LLM que genera conversaciones. El Crítico consiste en una mezcla de LLMs expertos que controlan la calidad de las conversaciones generadas. Estos expertos seleccionan las mejores conversaciones generadas, que luego utilizamos para mejorar el Generador. Publicamos Synthetic-Persona-Chat, que consta de 20k conversaciones generadas a partir de Persona-Chat. Evaluamos la calidad de Synthetic-Persona-Chat y nuestro marco de generación en diferentes dimensiones a través de extensos experimentos, y observamos que la tasa de pérdida de Synthetic-Persona-Chat frente a Persona-Chat durante la prueba de Turing disminuye del 17.2% al 8.8% en tres iteraciones.
English
High-quality conversational datasets are essential for developing AI models
that can communicate with users. One way to foster deeper interactions between
a chatbot and its user is through personas, aspects of the user's character
that provide insights into their personality, motivations, and behaviors.
Training Natural Language Processing (NLP) models on a diverse and
comprehensive persona-based dataset can lead to conversational models that
create a deeper connection with the user, and maintain their engagement. In
this paper, we leverage the power of Large Language Models (LLMs) to create a
large, high-quality conversational dataset from a seed dataset. We propose a
Generator-Critic architecture framework to expand the initial dataset, while
improving the quality of its conversations. The Generator is an LLM prompted to
output conversations. The Critic consists of a mixture of expert LLMs that
control the quality of the generated conversations. These experts select the
best generated conversations, which we then use to improve the Generator. We
release Synthetic-Persona-Chat, consisting of 20k conversations seeded from
Persona-Chat. We evaluate the quality of Synthetic-Persona-Chat and our
generation framework on different dimensions through extensive experiments, and
observe that the losing rate of Synthetic-Persona-Chat against Persona-Chat
during Turing test decreases from 17.2% to 8.8% over three iterations.