DiaSynth -- Marco de Generación de Diálogos Sintéticos
DiaSynth -- Synthetic Dialogue Generation Framework
September 25, 2024
Autores: Sathya Krishnan Suresh, Wu Mengjun, Tushar Pranav, Eng Siong Chng
cs.AI
Resumen
La escasez de conjuntos de datos de diálogo específicos de dominio en diversos ámbitos, desde temas académicos hasta conversaciones cotidianas, limita el desarrollo de sistemas de diálogo para diversas aplicaciones. La investigación existente suele estar restringida ya sea por conjuntos de datos de diálogo demasiado generales o por conjuntos de datos de diálogo de dominio especializado cuya escala no coincide con la escala requerida para el entrenamiento de sistemas de diálogo. Para abordar esta brecha, presentamos DiaSynth, un marco de generación de diálogos sintéticos capaz de generar diálogos de alta calidad, ricos en contexto, en una amplia gama de dominios. Nuestro enfoque difiere de los marcos existentes al generar dinámicamente diálogos que incorporan personas simuladas, subtemas y diversas características conversacionales, utilizando un Gran Modelo de Lenguaje (GML) con razonamiento en Cadena de Pensamiento (CoT) para crear diálogos específicos de dominio ricos en contexto que imitan de cerca las interacciones humanas naturales. DiaSynth produce diálogos personalizados que emulan conversaciones realistas. Realizamos nuestros experimentos generando datos sintéticos utilizando diferentes GMLs y ejemplos de pocos disparos de DialogSum y SAMSum. Los modelos de lenguaje preentrenados ajustados con los datos sintéticos superan a los modelos base en un 16.47%, mientras que la comparación entre los modelos ajustados con datos dentro del dominio y datos sintéticos muestra que los datos sintéticos son capaces de capturar el 90.48% de la distribución de los datos dentro del dominio. La calidad de los datos generados también aumenta con el tamaño de los GMLs. Estos resultados validan el potencial de DiaSynth como una alternativa sólida a los métodos tradicionales de recopilación de datos.
English
The scarcity of domain specific dialogue datasets across various domains,
from academic topics to everyday conversations, limits the development of
dialogue systems for various applications. Existing research is often
constrained either by dialogue datasets that are too general or by niche domain
dialogue datasets whose scale does not match the required scale for training
dialogue systems. To address this gap, we introduce DiaSynth - a synthetic
dialogue generation framework capable of generating high quality, contextually
rich dialogues across a wide range of domains. Our approach differs from
existing frameworks by dynamically generating dialogues that incorporate
simulated personas, subtopics, and diverse conversational characteristics,
using a Large Language Model (LLM) with Chain of Thought (CoT) reasoning to
create contextually rich, domain-specific dialogues that closely mimic natural
human interactions. DiaSynth produces tailored dialogues that emulate realistic
conversations. We perform our experiments by generating synthetic data using
different LLMs and few-shot examples from DialogSum and SAMSum. The pretrained
language models fine-tuned on the synthetic data outperform the base models by
16.47%, while the comparison between models fine-tuned on in-domain data and
synthetic data shows that the synthetic data is able to capture 90.48% of the
distribution of the in-domain data. The quality of the data generated also
scales with the size of LLMs. These results validate DiaSynth's potential as a
robust alternative to traditional data collection methods.Summary
AI-Generated Summary