DialogStudio: Rumo à Coleção de Dados Unificada Mais Rica e Diversa para IA Conversacional
DialogStudio: Towards Richest and Most Diverse Unified Dataset Collection for Conversational AI
July 19, 2023
Autores: Jianguo Zhang, Kun Qian, Zhiwei Liu, Shelby Heinecke, Rui Meng, Ye Liu, Zhou Yu, Huan Wang, Silvio Savarese, Caiming Xiong
cs.AI
Resumo
Apesar dos avanços na IA conversacional, os modelos de linguagem enfrentam desafios para lidar com diversas tarefas conversacionais, e as coleções de conjuntos de dados de diálogo existentes frequentemente carecem de diversidade e abrangência. Para abordar essas questões, apresentamos o DialogStudio: a maior e mais diversificada coleção de conjuntos de dados de diálogo, unificada em um formato consistente, preservando suas informações originais. Nossa coleção abrange dados de diálogos de domínio aberto, diálogos orientados a tarefas, compreensão de linguagem natural, recomendação conversacional, sumarização de diálogos e diálogos baseados em conhecimento, tornando-a um recurso incrivelmente rico e diversificado para pesquisa em diálogos e treinamento de modelos. Para aprimorar ainda mais a utilidade do DialogStudio, identificamos as licenças de cada conjunto de dados e projetamos prompts conscientes do domínio para diálogos selecionados, facilitando o ajuste fino orientado por instruções. Além disso, desenvolvemos modelos de IA conversacional utilizando a coleção de conjuntos de dados, e nossos experimentos em cenários de aprendizado zero-shot e few-shot demonstram a superioridade do DialogStudio. Para melhorar a transparência e apoiar a pesquisa baseada em conjuntos de dados e tarefas, bem como o pré-treinamento de modelos de linguagem, todos os conjuntos de dados, licenças, códigos e modelos associados ao DialogStudio estão disponíveis publicamente em https://github.com/salesforce/DialogStudio.
English
Despite advancements in conversational AI, language models encounter
challenges to handle diverse conversational tasks, and existing dialogue
dataset collections often lack diversity and comprehensiveness. To tackle these
issues, we introduce DialogStudio: the largest and most diverse collection of
dialogue datasets, unified under a consistent format while preserving their
original information. Our collection encompasses data from open-domain
dialogues, task-oriented dialogues, natural language understanding,
conversational recommendation, dialogue summarization, and knowledge-grounded
dialogues, making it an incredibly rich and diverse resource for dialogue
research and model training. To further enhance the utility of DialogStudio, we
identify the licenses for each dataset and design domain-aware prompts for
selected dialogues to facilitate instruction-aware fine-tuning. Furthermore, we
develop conversational AI models using the dataset collection, and our
experiments in both zero-shot and few-shot learning scenarios demonstrate the
superiority of DialogStudio. To improve transparency and support dataset and
task-based research, as well as language model pre-training, all datasets,
licenses, codes, and models associated with DialogStudio are made publicly
accessible at https://github.com/salesforce/DialogStudio