ChatPaper.aiChatPaper

Treuebasierte Erzeugung von Persona-basierten Konversationsdatensätzen mit großen Sprachmodellen

Faithful Persona-based Conversational Dataset Generation with Large Language Models

December 15, 2023
Autoren: Pegah Jandaghi, XiangHai Sheng, Xinyi Bai, Jay Pujara, Hakim Sidahmed
cs.AI

Zusammenfassung

Hochwertige Konversationsdatensätze sind entscheidend für die Entwicklung von KI-Modellen, die mit Nutzern kommunizieren können. Eine Möglichkeit, tiefere Interaktionen zwischen einem Chatbot und seinem Nutzer zu fördern, sind Personas – Aspekte des Charakters des Nutzers, die Einblicke in dessen Persönlichkeit, Motivationen und Verhaltensweisen bieten. Das Training von Natural Language Processing (NLP)-Modellen auf einem diversen und umfassenden, personasbasierten Datensatz kann zu Konversationsmodellen führen, die eine tiefere Verbindung zum Nutzer herstellen und dessen Engagement aufrechterhalten. In diesem Papier nutzen wir die Leistungsfähigkeit von Large Language Models (LLMs), um einen großen, hochwertigen Konversationsdatensatz aus einem Ausgangsdatensatz zu erstellen. Wir schlagen ein Generator-Kritiker-Architektur-Framework vor, um den ursprünglichen Datensatz zu erweitern und gleichzeitig die Qualität der Konversationen zu verbessern. Der Generator ist ein LLM, das dazu aufgefordert wird, Konversationen zu generieren. Der Kritiker besteht aus einer Mischung von Experten-LLMs, die die Qualität der generierten Konversationen kontrollieren. Diese Experten wählen die besten generierten Konversationen aus, die wir dann verwenden, um den Generator zu verbessern. Wir veröffentlichen Synthetic-Persona-Chat, das aus 20.000 Konversationen besteht, die aus Persona-Chat stammen. Wir bewerten die Qualität von Synthetic-Persona-Chat und unseres Generationsframeworks in verschiedenen Dimensionen durch umfangreiche Experimente und beobachten, dass die Verlustrate von Synthetic-Persona-Chat gegenüber Persona-Chat während des Turing-Tests über drei Iterationen von 17,2 % auf 8,8 % sinkt.
English
High-quality conversational datasets are essential for developing AI models that can communicate with users. One way to foster deeper interactions between a chatbot and its user is through personas, aspects of the user's character that provide insights into their personality, motivations, and behaviors. Training Natural Language Processing (NLP) models on a diverse and comprehensive persona-based dataset can lead to conversational models that create a deeper connection with the user, and maintain their engagement. In this paper, we leverage the power of Large Language Models (LLMs) to create a large, high-quality conversational dataset from a seed dataset. We propose a Generator-Critic architecture framework to expand the initial dataset, while improving the quality of its conversations. The Generator is an LLM prompted to output conversations. The Critic consists of a mixture of expert LLMs that control the quality of the generated conversations. These experts select the best generated conversations, which we then use to improve the Generator. We release Synthetic-Persona-Chat, consisting of 20k conversations seeded from Persona-Chat. We evaluate the quality of Synthetic-Persona-Chat and our generation framework on different dimensions through extensive experiments, and observe that the losing rate of Synthetic-Persona-Chat against Persona-Chat during Turing test decreases from 17.2% to 8.8% over three iterations.
PDF91December 15, 2024