Génération fidèle de jeux de données conversationnels basés sur des personas avec des modèles de langage à grande échelle
Faithful Persona-based Conversational Dataset Generation with Large Language Models
December 15, 2023
Auteurs: Pegah Jandaghi, XiangHai Sheng, Xinyi Bai, Jay Pujara, Hakim Sidahmed
cs.AI
Résumé
Les ensembles de données conversationnelles de haute qualité sont essentiels pour développer des modèles d'IA capables de communiquer avec les utilisateurs. Une manière de favoriser des interactions plus profondes entre un chatbot et son utilisateur est d'utiliser des personas, des aspects du caractère de l'utilisateur qui fournissent des insights sur leur personnalité, motivations et comportements. L'entraînement de modèles de traitement du langage naturel (NLP) sur un ensemble de données diversifié et complet basé sur des personas peut conduire à des modèles conversationnels qui créent un lien plus profond avec l'utilisateur et maintiennent son engagement. Dans cet article, nous exploitons la puissance des modèles de langage de grande taille (LLMs) pour créer un vaste ensemble de données conversationnelles de haute qualité à partir d'un ensemble de données initial. Nous proposons un cadre d'architecture Générateur-Critique pour étendre l'ensemble de données initial tout en améliorant la qualité de ses conversations. Le Générateur est un LLM incité à produire des conversations. Le Critique consiste en un mélange de LLMs experts qui contrôlent la qualité des conversations générées. Ces experts sélectionnent les meilleures conversations générées, que nous utilisons ensuite pour améliorer le Générateur. Nous publions Synthetic-Persona-Chat, composé de 20 000 conversations issues de Persona-Chat. Nous évaluons la qualité de Synthetic-Persona-Chat et de notre cadre de génération sur différentes dimensions à travers des expériences approfondies, et observons que le taux de perte de Synthetic-Persona-Chat contre Persona-Chat lors d'un test de Turing diminue de 17,2 % à 8,8 % sur trois itérations.
English
High-quality conversational datasets are essential for developing AI models
that can communicate with users. One way to foster deeper interactions between
a chatbot and its user is through personas, aspects of the user's character
that provide insights into their personality, motivations, and behaviors.
Training Natural Language Processing (NLP) models on a diverse and
comprehensive persona-based dataset can lead to conversational models that
create a deeper connection with the user, and maintain their engagement. In
this paper, we leverage the power of Large Language Models (LLMs) to create a
large, high-quality conversational dataset from a seed dataset. We propose a
Generator-Critic architecture framework to expand the initial dataset, while
improving the quality of its conversations. The Generator is an LLM prompted to
output conversations. The Critic consists of a mixture of expert LLMs that
control the quality of the generated conversations. These experts select the
best generated conversations, which we then use to improve the Generator. We
release Synthetic-Persona-Chat, consisting of 20k conversations seeded from
Persona-Chat. We evaluate the quality of Synthetic-Persona-Chat and our
generation framework on different dimensions through extensive experiments, and
observe that the losing rate of Synthetic-Persona-Chat against Persona-Chat
during Turing test decreases from 17.2% to 8.8% over three iterations.