大規模言語モデルを用いた忠実なペルソナベース対話データセット生成
Faithful Persona-based Conversational Dataset Generation with Large Language Models
December 15, 2023
著者: Pegah Jandaghi, XiangHai Sheng, Xinyi Bai, Jay Pujara, Hakim Sidahmed
cs.AI
要旨
高品質な対話データセットは、ユーザーとコミュニケーションを取るAIモデルの開発に不可欠です。チャットボットとユーザー間の深い相互作用を促進する方法の一つとして、ユーザーの性格、動機、行動に関する洞察を提供する「ペルソナ」が挙げられます。多様で包括的なペルソナベースのデータセットで自然言語処理(NLP)モデルを訓練することで、ユーザーとの深い結びつきを創出し、エンゲージメントを維持する対話モデルを実現できます。本論文では、大規模言語モデル(LLM)の力を活用して、シードデータセットから大規模で高品質な対話データセットを作成します。初期データセットを拡張し、その対話の品質を向上させるためのGenerator-Criticアーキテクチャフレームワークを提案します。Generatorは、対話を出力するようにプロンプトされたLLMです。Criticは、生成された対話の品質を管理する専門家LLMの混合物で構成されます。これらの専門家が最良の生成対話を選択し、それを用いてGeneratorを改善します。Persona-Chatをシードとした20,000の対話からなるSynthetic-Persona-Chatを公開します。Synthetic-Persona-Chatと生成フレームワークの品質を多角的に評価するため、広範な実験を行い、チューリングテストにおけるSynthetic-Persona-ChatのPersona-Chatに対する敗北率が、3回の反復で17.2%から8.8%に減少することを確認しました。
English
High-quality conversational datasets are essential for developing AI models
that can communicate with users. One way to foster deeper interactions between
a chatbot and its user is through personas, aspects of the user's character
that provide insights into their personality, motivations, and behaviors.
Training Natural Language Processing (NLP) models on a diverse and
comprehensive persona-based dataset can lead to conversational models that
create a deeper connection with the user, and maintain their engagement. In
this paper, we leverage the power of Large Language Models (LLMs) to create a
large, high-quality conversational dataset from a seed dataset. We propose a
Generator-Critic architecture framework to expand the initial dataset, while
improving the quality of its conversations. The Generator is an LLM prompted to
output conversations. The Critic consists of a mixture of expert LLMs that
control the quality of the generated conversations. These experts select the
best generated conversations, which we then use to improve the Generator. We
release Synthetic-Persona-Chat, consisting of 20k conversations seeded from
Persona-Chat. We evaluate the quality of Synthetic-Persona-Chat and our
generation framework on different dimensions through extensive experiments, and
observe that the losing rate of Synthetic-Persona-Chat against Persona-Chat
during Turing test decreases from 17.2% to 8.8% over three iterations.