Generazione Fedele di Dataset Conversazionali Basati su Persona con Modelli Linguistici di Grande Scala

Abstract

Dataset conversazionali di alta qualità sono essenziali per sviluppare modelli di intelligenza artificiale in grado di comunicare con gli utenti. Un modo per favorire interazioni più profonde tra un chatbot e il suo utente è attraverso le persone, aspetti del carattere dell'utente che forniscono intuizioni sulla loro personalità, motivazioni e comportamenti. Addestrare modelli di elaborazione del linguaggio naturale (NLP) su un dataset diversificato e completo basato su persone può portare a modelli conversazionali che creano un legame più profondo con l'utente e mantengono il loro coinvolgimento. In questo articolo, sfruttiamo la potenza dei modelli linguistici di grandi dimensioni (LLM) per creare un ampio dataset conversazionale di alta qualità a partire da un dataset iniziale. Proponiamo un framework architetturale Generatore-Critico per espandere il dataset iniziale, migliorando al contempo la qualità delle sue conversazioni. Il Generatore è un LLM sollecitato a produrre conversazioni. Il Critico è composto da una miscela di LLM esperti che controllano la qualità delle conversazioni generate. Questi esperti selezionano le migliori conversazioni generate, che poi utilizziamo per migliorare il Generatore. Rilasciamo Synthetic-Persona-Chat, composto da 20k conversazioni generate a partire da Persona-Chat. Valutiamo la qualità di Synthetic-Persona-Chat e del nostro framework di generazione su diverse dimensioni attraverso esperimenti estesi, e osserviamo che il tasso di perdita di Synthetic-Persona-Chat rispetto a Persona-Chat durante il test di Turing diminuisce dal 17,2% all'8,8% in tre iterazioni.

English

High-quality conversational datasets are essential for developing AI models that can communicate with users. One way to foster deeper interactions between a chatbot and its user is through personas, aspects of the user's character that provide insights into their personality, motivations, and behaviors. Training Natural Language Processing (NLP) models on a diverse and comprehensive persona-based dataset can lead to conversational models that create a deeper connection with the user, and maintain their engagement. In this paper, we leverage the power of Large Language Models (LLMs) to create a large, high-quality conversational dataset from a seed dataset. We propose a Generator-Critic architecture framework to expand the initial dataset, while improving the quality of its conversations. The Generator is an LLM prompted to output conversations. The Critic consists of a mixture of expert LLMs that control the quality of the generated conversations. These experts select the best generated conversations, which we then use to improve the Generator. We release Synthetic-Persona-Chat, consisting of 20k conversations seeded from Persona-Chat. We evaluate the quality of Synthetic-Persona-Chat and our generation framework on different dimensions through extensive experiments, and observe that the losing rate of Synthetic-Persona-Chat against Persona-Chat during Turing test decreases from 17.2% to 8.8% over three iterations.

Generazione Fedele di Dataset Conversazionali Basati su Persona con Modelli Linguistici di Grande Scala

Faithful Persona-based Conversational Dataset Generation with Large Language Models

Abstract

Support