DiaSynth -- Фреймворк для синтеза диалогов
DiaSynth -- Synthetic Dialogue Generation Framework
September 25, 2024
Авторы: Sathya Krishnan Suresh, Wu Mengjun, Tushar Pranav, Eng Siong Chng
cs.AI
Аннотация
Недостаток наборов данных для диалогов в различных областях, начиная от академических тем до повседневных разговоров, ограничивает развитие систем диалога для различных приложений. Существующие исследования часто ограничены как слишком общими наборами данных для диалогов, так и нишевыми наборами данных для диалогов в конкретной области, масштаб которых не соответствует требуемому масштабу для обучения систем диалога. Для устранения этого разрыва мы представляем DiaSynth - синтетическую систему генерации диалогов, способную создавать диалоги высокого качества, контекстно насыщенные в различных областях. Наш подход отличается от существующих систем тем, что динамически генерирует диалоги, включающие симулированные персоны, подтемы и разнообразные характеристики разговора, используя Большую Языковую Модель (LLM) с Цепочкой Мысли (CoT) для создания контекстно насыщенных, областно-специфичных диалогов, которые тесно имитируют естественное человеческое взаимодействие. DiaSynth создает настроенные диалоги, эмулирующие реалистичные разговоры. Мы проводим эксперименты, генерируя синтетические данные с использованием различных LLM и примеров с небольшим числом шагов из DialogSum и SAMSum. Предварительно обученные языковые модели, настроенные на синтетических данных, превосходят базовые модели на 16,47%, в то время как сравнение между моделями, настроенными на данных внутри области и синтетическими данными, показывает, что синтетические данные способны охватить 90,48% распределения данных внутри области. Качество сгенерированных данных также масштабируется с размером LLM. Эти результаты подтверждают потенциал DiaSynth как надежной альтернативы традиционным методам сбора данных.
English
The scarcity of domain specific dialogue datasets across various domains,
from academic topics to everyday conversations, limits the development of
dialogue systems for various applications. Existing research is often
constrained either by dialogue datasets that are too general or by niche domain
dialogue datasets whose scale does not match the required scale for training
dialogue systems. To address this gap, we introduce DiaSynth - a synthetic
dialogue generation framework capable of generating high quality, contextually
rich dialogues across a wide range of domains. Our approach differs from
existing frameworks by dynamically generating dialogues that incorporate
simulated personas, subtopics, and diverse conversational characteristics,
using a Large Language Model (LLM) with Chain of Thought (CoT) reasoning to
create contextually rich, domain-specific dialogues that closely mimic natural
human interactions. DiaSynth produces tailored dialogues that emulate realistic
conversations. We perform our experiments by generating synthetic data using
different LLMs and few-shot examples from DialogSum and SAMSum. The pretrained
language models fine-tuned on the synthetic data outperform the base models by
16.47%, while the comparison between models fine-tuned on in-domain data and
synthetic data shows that the synthetic data is able to capture 90.48% of the
distribution of the in-domain data. The quality of the data generated also
scales with the size of LLMs. These results validate DiaSynth's potential as a
robust alternative to traditional data collection methods.Summary
AI-Generated Summary