Geração Fiel de Conjuntos de Dados Conversacionais Baseados em Personas com Modelos de Linguagem de Grande Escala
Faithful Persona-based Conversational Dataset Generation with Large Language Models
December 15, 2023
Autores: Pegah Jandaghi, XiangHai Sheng, Xinyi Bai, Jay Pujara, Hakim Sidahmed
cs.AI
Resumo
Conjuntos de dados conversacionais de alta qualidade são essenciais para o desenvolvimento de modelos de IA que possam se comunicar com os usuários. Uma maneira de promover interações mais profundas entre um chatbot e seu usuário é por meio de personas, aspectos do caráter do usuário que fornecem insights sobre sua personalidade, motivações e comportamentos. Treinar modelos de Processamento de Linguagem Natural (NLP) em um conjunto de dados diversificado e abrangente baseado em personas pode levar a modelos conversacionais que criam uma conexão mais profunda com o usuário e mantêm seu engajamento. Neste artigo, aproveitamos o poder dos Modelos de Linguagem de Grande Escala (LLMs) para criar um grande conjunto de dados conversacionais de alta qualidade a partir de um conjunto de dados inicial. Propomos uma arquitetura de framework Gerador-Crítico para expandir o conjunto de dados inicial, ao mesmo tempo em que melhoramos a qualidade de suas conversas. O Gerador é um LLM instruído a gerar conversas. O Crítico consiste em uma mistura de LLMs especializados que controlam a qualidade das conversas geradas. Esses especialistas selecionam as melhores conversas geradas, que então usamos para melhorar o Gerador. Lançamos o Synthetic-Persona-Chat, composto por 20 mil conversas originadas do Persona-Chat. Avaliamos a qualidade do Synthetic-Persona-Chat e nosso framework de geração em diferentes dimensões por meio de extensos experimentos, e observamos que a taxa de perda do Synthetic-Persona-Chat em relação ao Persona-Chat durante o teste de Turing diminui de 17,2% para 8,8% ao longo de três iterações.
English
High-quality conversational datasets are essential for developing AI models
that can communicate with users. One way to foster deeper interactions between
a chatbot and its user is through personas, aspects of the user's character
that provide insights into their personality, motivations, and behaviors.
Training Natural Language Processing (NLP) models on a diverse and
comprehensive persona-based dataset can lead to conversational models that
create a deeper connection with the user, and maintain their engagement. In
this paper, we leverage the power of Large Language Models (LLMs) to create a
large, high-quality conversational dataset from a seed dataset. We propose a
Generator-Critic architecture framework to expand the initial dataset, while
improving the quality of its conversations. The Generator is an LLM prompted to
output conversations. The Critic consists of a mixture of expert LLMs that
control the quality of the generated conversations. These experts select the
best generated conversations, which we then use to improve the Generator. We
release Synthetic-Persona-Chat, consisting of 20k conversations seeded from
Persona-Chat. We evaluate the quality of Synthetic-Persona-Chat and our
generation framework on different dimensions through extensive experiments, and
observe that the losing rate of Synthetic-Persona-Chat against Persona-Chat
during Turing test decreases from 17.2% to 8.8% over three iterations.