DiaSynth -- Cadre de génération de dialogue synthétique
DiaSynth -- Synthetic Dialogue Generation Framework
September 25, 2024
Auteurs: Sathya Krishnan Suresh, Wu Mengjun, Tushar Pranav, Eng Siong Chng
cs.AI
Résumé
La rareté des ensembles de données de dialogue spécifiques au domaine dans divers domaines, des sujets académiques aux conversations quotidiennes, limite le développement des systèmes de dialogue pour diverses applications. Les recherches existantes sont souvent contraintes soit par des ensembles de données de dialogue trop généraux, soit par des ensembles de données de dialogue de niche dont l'échelle ne correspond pas à l'échelle requise pour l'entraînement des systèmes de dialogue. Pour combler cette lacune, nous introduisons DiaSynth - un cadre de génération de dialogue synthétique capable de produire des dialogues de haute qualité, riches en contexte, dans une large gamme de domaines. Notre approche se distingue des cadres existants en générant dynamiquement des dialogues qui intègrent des personnages simulés, des sous-thèmes et des caractéristiques conversationnelles diverses, en utilisant un Grand Modèle de Langue (GML) avec un raisonnement en Chaîne de Pensée (CoT) pour créer des dialogues spécifiques au domaine, riches en contexte, qui imitent étroitement les interactions humaines naturelles. DiaSynth produit des dialogues sur mesure qui imitent des conversations réalistes. Nous menons nos expériences en générant des données synthétiques en utilisant différents GMLs et quelques exemples à tir rapide de DialogSum et SAMSum. Les modèles de langue pré-entraînés affinés sur les données synthétiques surpassent les modèles de base de 16,47%, tandis que la comparaison entre les modèles affinés sur des données dans le domaine et des données synthétiques montre que les données synthétiques sont capables de capturer 90,48% de la distribution des données dans le domaine. La qualité des données générées évolue également avec la taille des GMLs. Ces résultats valident le potentiel de DiaSynth en tant qu'alternative robuste aux méthodes traditionnelles de collecte de données.
English
The scarcity of domain specific dialogue datasets across various domains,
from academic topics to everyday conversations, limits the development of
dialogue systems for various applications. Existing research is often
constrained either by dialogue datasets that are too general or by niche domain
dialogue datasets whose scale does not match the required scale for training
dialogue systems. To address this gap, we introduce DiaSynth - a synthetic
dialogue generation framework capable of generating high quality, contextually
rich dialogues across a wide range of domains. Our approach differs from
existing frameworks by dynamically generating dialogues that incorporate
simulated personas, subtopics, and diverse conversational characteristics,
using a Large Language Model (LLM) with Chain of Thought (CoT) reasoning to
create contextually rich, domain-specific dialogues that closely mimic natural
human interactions. DiaSynth produces tailored dialogues that emulate realistic
conversations. We perform our experiments by generating synthetic data using
different LLMs and few-shot examples from DialogSum and SAMSum. The pretrained
language models fine-tuned on the synthetic data outperform the base models by
16.47%, while the comparison between models fine-tuned on in-domain data and
synthetic data shows that the synthetic data is able to capture 90.48% of the
distribution of the in-domain data. The quality of the data generated also
scales with the size of LLMs. These results validate DiaSynth's potential as a
robust alternative to traditional data collection methods.Summary
AI-Generated Summary