ChatPaper.aiChatPaper

DiaSynth -- Estrutura de Geração de Diálogo Sintético

DiaSynth -- Synthetic Dialogue Generation Framework

September 25, 2024
Autores: Sathya Krishnan Suresh, Wu Mengjun, Tushar Pranav, Eng Siong Chng
cs.AI

Resumo

A escassez de conjuntos de dados de diálogo específicos de domínio em vários domínios, desde tópicos acadêmicos até conversas cotidianas, limita o desenvolvimento de sistemas de diálogo para diversas aplicações. A pesquisa existente muitas vezes é limitada por conjuntos de dados de diálogo que são muito gerais ou por conjuntos de dados de diálogo de domínio de nicho cuja escala não corresponde à escala necessária para treinar sistemas de diálogo. Para abordar essa lacuna, apresentamos o DiaSynth - um framework de geração de diálogo sintético capaz de gerar diálogos de alta qualidade, ricos em contexto, em uma ampla gama de domínios. Nossa abordagem difere dos frameworks existentes ao gerar dinamicamente diálogos que incorporam personas simuladas, subtópicos e diversas características conversacionais, utilizando um Modelo de Linguagem Grande (LLM) com raciocínio Chain of Thought (CoT) para criar diálogos ricos em contexto e específicos de domínio que imitam de perto as interações humanas naturais. O DiaSynth produz diálogos personalizados que imitam conversas realistas. Realizamos nossos experimentos gerando dados sintéticos usando diferentes LLMs e exemplos de poucas iterações do DialogSum e SAMSum. Os modelos de linguagem pré-treinados ajustados aos dados sintéticos superam os modelos base em 16,47%, enquanto a comparação entre modelos ajustados aos dados dentro do domínio e dados sintéticos mostra que os dados sintéticos são capazes de capturar 90,48% da distribuição dos dados dentro do domínio. A qualidade dos dados gerados também aumenta com o tamanho dos LLMs. Esses resultados validam o potencial do DiaSynth como uma alternativa robusta aos métodos tradicionais de coleta de dados.
English
The scarcity of domain specific dialogue datasets across various domains, from academic topics to everyday conversations, limits the development of dialogue systems for various applications. Existing research is often constrained either by dialogue datasets that are too general or by niche domain dialogue datasets whose scale does not match the required scale for training dialogue systems. To address this gap, we introduce DiaSynth - a synthetic dialogue generation framework capable of generating high quality, contextually rich dialogues across a wide range of domains. Our approach differs from existing frameworks by dynamically generating dialogues that incorporate simulated personas, subtopics, and diverse conversational characteristics, using a Large Language Model (LLM) with Chain of Thought (CoT) reasoning to create contextually rich, domain-specific dialogues that closely mimic natural human interactions. DiaSynth produces tailored dialogues that emulate realistic conversations. We perform our experiments by generating synthetic data using different LLMs and few-shot examples from DialogSum and SAMSum. The pretrained language models fine-tuned on the synthetic data outperform the base models by 16.47%, while the comparison between models fine-tuned on in-domain data and synthetic data shows that the synthetic data is able to capture 90.48% of the distribution of the in-domain data. The quality of the data generated also scales with the size of LLMs. These results validate DiaSynth's potential as a robust alternative to traditional data collection methods.

Summary

AI-Generated Summary

PDF213November 13, 2024