ChatPaper.aiChatPaper

DiaSynth -- Framework zur synthetischen Dialoggenerierung

DiaSynth -- Synthetic Dialogue Generation Framework

September 25, 2024
Autoren: Sathya Krishnan Suresh, Wu Mengjun, Tushar Pranav, Eng Siong Chng
cs.AI

Zusammenfassung

Die Knappheit von domänenspezifischen Dialogdatensätzen in verschiedenen Bereichen, von akademischen Themen bis hin zu alltäglichen Gesprächen, begrenzt die Entwicklung von Dialogsystemen für verschiedene Anwendungen. Die bestehende Forschung wird häufig entweder durch zu allgemeine Dialogdatensätze oder durch spezialisierte Domänen-Dialogdatensätze eingeschränkt, deren Umfang nicht dem erforderlichen Umfang für das Training von Dialogsystemen entspricht. Um diese Lücke zu schließen, stellen wir DiaSynth vor - ein synthetisches Dialoggenerierungsframework, das in der Lage ist, hochwertige, kontextuell reiche Dialoge über eine Vielzahl von Domänen zu erzeugen. Unser Ansatz unterscheidet sich von bestehenden Frameworks durch die dynamische Generierung von Dialogen, die simulierte Persönlichkeiten, Unterkategorien und vielfältige Gesprächsmerkmale integrieren, unter Verwendung eines Large Language Model (LLM) mit Chain of Thought (CoT)-Argumentation, um kontextuell reiche, domänenspezifische Dialoge zu erstellen, die natürliche menschliche Interaktionen nachahmen. DiaSynth produziert maßgeschneiderte Dialoge, die realistische Gespräche nachahmen. Wir führen unsere Experimente durch, indem wir synthetische Daten unter Verwendung verschiedener LLMs und Few-Shot-Beispiele aus DialogSum und SAMSum generieren. Die auf den synthetischen Daten feinabgestimmten Sprachmodelle übertreffen die Basismodelle um 16,47%, während der Vergleich zwischen Modellen, die auf In-Domänen-Daten und synthetischen Daten feinabgestimmt sind, zeigt, dass die synthetischen Daten 90,48% der Verteilung der In-Domänen-Daten erfassen können. Die Qualität der generierten Daten skaliert auch mit der Größe der LLMs. Diese Ergebnisse bestätigen das Potenzial von DiaSynth als robuste Alternative zu traditionellen Datensammlungsmethoden.
English
The scarcity of domain specific dialogue datasets across various domains, from academic topics to everyday conversations, limits the development of dialogue systems for various applications. Existing research is often constrained either by dialogue datasets that are too general or by niche domain dialogue datasets whose scale does not match the required scale for training dialogue systems. To address this gap, we introduce DiaSynth - a synthetic dialogue generation framework capable of generating high quality, contextually rich dialogues across a wide range of domains. Our approach differs from existing frameworks by dynamically generating dialogues that incorporate simulated personas, subtopics, and diverse conversational characteristics, using a Large Language Model (LLM) with Chain of Thought (CoT) reasoning to create contextually rich, domain-specific dialogues that closely mimic natural human interactions. DiaSynth produces tailored dialogues that emulate realistic conversations. We perform our experiments by generating synthetic data using different LLMs and few-shot examples from DialogSum and SAMSum. The pretrained language models fine-tuned on the synthetic data outperform the base models by 16.47%, while the comparison between models fine-tuned on in-domain data and synthetic data shows that the synthetic data is able to capture 90.48% of the distribution of the in-domain data. The quality of the data generated also scales with the size of LLMs. These results validate DiaSynth's potential as a robust alternative to traditional data collection methods.

Summary

AI-Generated Summary

PDF213November 13, 2024