Getrouwe Persona-gebaseerde Conversatie Dataset Generatie met Grote Taalmodellen
Faithful Persona-based Conversational Dataset Generation with Large Language Models
December 15, 2023
Auteurs: Pegah Jandaghi, XiangHai Sheng, Xinyi Bai, Jay Pujara, Hakim Sidahmed
cs.AI
Samenvatting
Hoogwaardige conversatiedatasets zijn essentieel voor het ontwikkelen van AI-modellen die met gebruikers kunnen communiceren. Een manier om diepere interacties tussen een chatbot en zijn gebruiker te bevorderen, is door middel van persona's, aspecten van het karakter van de gebruiker die inzicht geven in hun persoonlijkheid, motivaties en gedrag. Het trainen van Natural Language Processing (NLP)-modellen op een diverse en uitgebreide dataset gebaseerd op persona's kan leiden tot conversatiemodellen die een diepere verbinding met de gebruiker creëren en hun betrokkenheid behouden. In dit artikel benutten we de kracht van Large Language Models (LLMs) om een grote, hoogwaardige conversatiedataset te creëren vanuit een startdataset. We stellen een Generator-Critic-architectuurframework voor om de initiële dataset uit te breiden, terwijl de kwaliteit van de gesprekken wordt verbeterd. De Generator is een LLM die wordt aangestuurd om gesprekken te genereren. De Critic bestaat uit een mix van expert-LLM's die de kwaliteit van de gegenereerde gesprekken controleren. Deze experts selecteren de beste gegenereerde gesprekken, die we vervolgens gebruiken om de Generator te verbeteren. We brengen Synthetic-Persona-Chat uit, bestaande uit 20k gesprekken die zijn voortgekomen uit Persona-Chat. We evalueren de kwaliteit van Synthetic-Persona-Chat en ons generatieframework op verschillende dimensies door middel van uitgebreide experimenten, en we observeren dat het verliespercentage van Synthetic-Persona-Chat ten opzichte van Persona-Chat tijdens de Turingtest daalt van 17,2% naar 8,8% over drie iteraties.
English
High-quality conversational datasets are essential for developing AI models
that can communicate with users. One way to foster deeper interactions between
a chatbot and its user is through personas, aspects of the user's character
that provide insights into their personality, motivations, and behaviors.
Training Natural Language Processing (NLP) models on a diverse and
comprehensive persona-based dataset can lead to conversational models that
create a deeper connection with the user, and maintain their engagement. In
this paper, we leverage the power of Large Language Models (LLMs) to create a
large, high-quality conversational dataset from a seed dataset. We propose a
Generator-Critic architecture framework to expand the initial dataset, while
improving the quality of its conversations. The Generator is an LLM prompted to
output conversations. The Critic consists of a mixture of expert LLMs that
control the quality of the generated conversations. These experts select the
best generated conversations, which we then use to improve the Generator. We
release Synthetic-Persona-Chat, consisting of 20k conversations seeded from
Persona-Chat. We evaluate the quality of Synthetic-Persona-Chat and our
generation framework on different dimensions through extensive experiments, and
observe that the losing rate of Synthetic-Persona-Chat against Persona-Chat
during Turing test decreases from 17.2% to 8.8% over three iterations.