DiaSynth -- Raamwerk voor het genereren van synthetische dialogen
DiaSynth -- Synthetic Dialogue Generation Framework
September 25, 2024
Auteurs: Sathya Krishnan Suresh, Wu Mengjun, Tushar Pranav, Eng Siong Chng
cs.AI
Samenvatting
De schaarste aan domeinspecifieke dialoogdatasets over verschillende domeinen, van academische onderwerpen tot alledaagse gesprekken, beperkt de ontwikkeling van dialoogsysteem voor diverse toepassingen. Bestaand onderzoek wordt vaak beperkt door ofwel dialoogdatasets die te algemeen zijn of door niche-domeindialoogdatasets waarvan de omvang niet overeenkomt met de vereiste omvang voor het trainen van dialoogsysteem. Om deze kloof te overbruggen, introduceren we DiaSynth - een synthetisch dialooggeneratiekader dat in staat is om hoogwaardige, contextueel rijke dialogen te genereren over een breed scala aan domeinen. Onze benadering verschilt van bestaande kaders door dynamisch dialogen te genereren die gesimuleerde persona's, subonderwerpen en diverse conversatiekenmerken bevatten, met behulp van een Groot Taalmodel (GTM) met Keten van Gedachte (KvG) redenering om contextueel rijke, domeinspecifieke dialogen te creëren die natuurlijke menselijke interacties nauw nabootsen. DiaSynth produceert op maat gemaakte dialogen die realistische gesprekken nabootsen. We voeren onze experimenten uit door synthetische gegevens te genereren met behulp van verschillende GTM's en few-shot voorbeelden van DialogSum en SAMSum. De vooraf getrainde taalmodellen die zijn afgestemd op de synthetische gegevens presteren beter dan de basismodellen met 16,47%, terwijl de vergelijking tussen modellen die zijn afgestemd op in-domeingegevens en synthetische gegevens aantoont dat de synthetische gegevens in staat zijn om 90,48% van de distributie van de in-domeingegevens vast te leggen. De kwaliteit van de gegenereerde gegevens neemt ook toe met de omvang van de GTM's. Deze resultaten bevestigen het potentieel van DiaSynth als een robuust alternatief voor traditionele gegevensverzamelingsmethoden.
English
The scarcity of domain specific dialogue datasets across various domains,
from academic topics to everyday conversations, limits the development of
dialogue systems for various applications. Existing research is often
constrained either by dialogue datasets that are too general or by niche domain
dialogue datasets whose scale does not match the required scale for training
dialogue systems. To address this gap, we introduce DiaSynth - a synthetic
dialogue generation framework capable of generating high quality, contextually
rich dialogues across a wide range of domains. Our approach differs from
existing frameworks by dynamically generating dialogues that incorporate
simulated personas, subtopics, and diverse conversational characteristics,
using a Large Language Model (LLM) with Chain of Thought (CoT) reasoning to
create contextually rich, domain-specific dialogues that closely mimic natural
human interactions. DiaSynth produces tailored dialogues that emulate realistic
conversations. We perform our experiments by generating synthetic data using
different LLMs and few-shot examples from DialogSum and SAMSum. The pretrained
language models fine-tuned on the synthetic data outperform the base models by
16.47%, while the comparison between models fine-tuned on in-domain data and
synthetic data shows that the synthetic data is able to capture 90.48% of the
distribution of the in-domain data. The quality of the data generated also
scales with the size of LLMs. These results validate DiaSynth's potential as a
robust alternative to traditional data collection methods.Summary
AI-Generated Summary