DiaSynth -- Cadre de génération de dialogue synthétique

Résumé

La rareté des ensembles de données de dialogue spécifiques au domaine dans divers domaines, des sujets académiques aux conversations quotidiennes, limite le développement des systèmes de dialogue pour diverses applications. Les recherches existantes sont souvent contraintes soit par des ensembles de données de dialogue trop généraux, soit par des ensembles de données de dialogue de niche dont l'échelle ne correspond pas à l'échelle requise pour l'entraînement des systèmes de dialogue. Pour combler cette lacune, nous introduisons DiaSynth - un cadre de génération de dialogue synthétique capable de produire des dialogues de haute qualité, riches en contexte, dans une large gamme de domaines. Notre approche se distingue des cadres existants en générant dynamiquement des dialogues qui intègrent des personnages simulés, des sous-thèmes et des caractéristiques conversationnelles diverses, en utilisant un Grand Modèle de Langue (GML) avec un raisonnement en Chaîne de Pensée (CoT) pour créer des dialogues spécifiques au domaine, riches en contexte, qui imitent étroitement les interactions humaines naturelles. DiaSynth produit des dialogues sur mesure qui imitent des conversations réalistes. Nous menons nos expériences en générant des données synthétiques en utilisant différents GMLs et quelques exemples à tir rapide de DialogSum et SAMSum. Les modèles de langue pré-entraînés affinés sur les données synthétiques surpassent les modèles de base de 16,47%, tandis que la comparaison entre les modèles affinés sur des données dans le domaine et des données synthétiques montre que les données synthétiques sont capables de capturer 90,48% de la distribution des données dans le domaine. La qualité des données générées évolue également avec la taille des GMLs. Ces résultats valident le potentiel de DiaSynth en tant qu'alternative robuste aux méthodes traditionnelles de collecte de données.

English

The scarcity of domain specific dialogue datasets across various domains, from academic topics to everyday conversations, limits the development of dialogue systems for various applications. Existing research is often constrained either by dialogue datasets that are too general or by niche domain dialogue datasets whose scale does not match the required scale for training dialogue systems. To address this gap, we introduce DiaSynth - a synthetic dialogue generation framework capable of generating high quality, contextually rich dialogues across a wide range of domains. Our approach differs from existing frameworks by dynamically generating dialogues that incorporate simulated personas, subtopics, and diverse conversational characteristics, using a Large Language Model (LLM) with Chain of Thought (CoT) reasoning to create contextually rich, domain-specific dialogues that closely mimic natural human interactions. DiaSynth produces tailored dialogues that emulate realistic conversations. We perform our experiments by generating synthetic data using different LLMs and few-shot examples from DialogSum and SAMSum. The pretrained language models fine-tuned on the synthetic data outperform the base models by 16.47%, while the comparison between models fine-tuned on in-domain data and synthetic data shows that the synthetic data is able to capture 90.48% of the distribution of the in-domain data. The quality of the data generated also scales with the size of LLMs. These results validate DiaSynth's potential as a robust alternative to traditional data collection methods.

DiaSynth -- Cadre de génération de dialogue synthétique

DiaSynth -- Synthetic Dialogue Generation Framework

Résumé

Support