DiaSynth - Framework per la Generazione di Dialoghi Sintetici
DiaSynth -- Synthetic Dialogue Generation Framework
September 25, 2024
Autori: Sathya Krishnan Suresh, Wu Mengjun, Tushar Pranav, Eng Siong Chng
cs.AI
Abstract
La scarsità di dataset di dialogo specifici del dominio in vari settori, dai temi accademici alle conversazioni quotidiane, limita lo sviluppo dei sistemi di dialogo per varie applicazioni. La ricerca esistente è spesso vincolata sia da dataset di dialogo troppo generici sia da dataset di dialogo di nicchia il cui volume non corrisponde al volume richiesto per addestrare i sistemi di dialogo. Per colmare questa lacuna, presentiamo DiaSynth - un framework di generazione di dialoghi sintetici in grado di generare dialoghi di alta qualità, ricchi di contesto, in una vasta gamma di settori. Il nostro approccio si differenzia dai framework esistenti generando dinamicamente dialoghi che incorporano persone simulate, sottotematiche e diverse caratteristiche conversazionali, utilizzando un Grande Modello Linguistico (LLM) con Catena di Pensiero (CoT) per creare dialoghi specifici del dominio, ricchi di contesto, che imitano da vicino le interazioni umane naturali. DiaSynth produce dialoghi personalizzati che emulano conversazioni realistiche. Abbiamo condotto i nostri esperimenti generando dati sintetici utilizzando diversi LLM e alcuni esempi di DialogSum e SAMSum. I modelli linguistici preaddestrati, ottimizzati sui dati sintetici, superano i modelli di base del 16,47%, mentre il confronto tra i modelli ottimizzati sui dati in-domain e i dati sintetici mostra che i dati sintetici sono in grado di catturare il 90,48% della distribuzione dei dati in-domain. La qualità dei dati generati aumenta anche con la dimensione dei LLM. Questi risultati convalidano il potenziale di DiaSynth come robusta alternativa ai tradizionali metodi di raccolta dati.
English
The scarcity of domain specific dialogue datasets across various domains,
from academic topics to everyday conversations, limits the development of
dialogue systems for various applications. Existing research is often
constrained either by dialogue datasets that are too general or by niche domain
dialogue datasets whose scale does not match the required scale for training
dialogue systems. To address this gap, we introduce DiaSynth - a synthetic
dialogue generation framework capable of generating high quality, contextually
rich dialogues across a wide range of domains. Our approach differs from
existing frameworks by dynamically generating dialogues that incorporate
simulated personas, subtopics, and diverse conversational characteristics,
using a Large Language Model (LLM) with Chain of Thought (CoT) reasoning to
create contextually rich, domain-specific dialogues that closely mimic natural
human interactions. DiaSynth produces tailored dialogues that emulate realistic
conversations. We perform our experiments by generating synthetic data using
different LLMs and few-shot examples from DialogSum and SAMSum. The pretrained
language models fine-tuned on the synthetic data outperform the base models by
16.47%, while the comparison between models fine-tuned on in-domain data and
synthetic data shows that the synthetic data is able to capture 90.48% of the
distribution of the in-domain data. The quality of the data generated also
scales with the size of LLMs. These results validate DiaSynth's potential as a
robust alternative to traditional data collection methods.