DialogStudio: Op weg naar de rijkste en meest diverse geünificeerde datasetcollectie voor Conversational AI
DialogStudio: Towards Richest and Most Diverse Unified Dataset Collection for Conversational AI
July 19, 2023
Auteurs: Jianguo Zhang, Kun Qian, Zhiwei Liu, Shelby Heinecke, Rui Meng, Ye Liu, Zhou Yu, Huan Wang, Silvio Savarese, Caiming Xiong
cs.AI
Samenvatting
Ondanks vooruitgang in conversatie-AI, hebben taalmodelen moeite met het
behandelen van diverse conversatietaken, en bestaande verzamelingen van
dialoogdatasets missen vaak diversiteit en volledigheid. Om deze problemen aan
te pakken, introduceren we DialogStudio: de grootste en meest diverse
verzameling van dialoogdatasets, verenigd onder een consistent formaat terwijl
hun oorspronkelijke informatie behouden blijft. Onze verzameling omvat data van
open-domein dialogen, taakgerichte dialogen, natuurlijke taalbegrip,
conversatie-aanbevelingen, dialoogsamenvattingen en kennisgebaseerde dialogen,
waardoor het een uiterst rijk en divers hulpmiddel is voor dialoogonderzoek en
modeltraining. Om het nut van DialogStudio verder te vergroten, identificeren
we de licenties voor elke dataset en ontwerpen we domeinbewuste prompts voor
geselecteerde dialogen om instructiebewuste fine-tuning te vergemakkelijken.
Bovendien ontwikkelen we conversatie-AI-modellen met behulp van de
datasetverzameling, en onze experimenten in zowel zero-shot als few-shot
leerscenario's demonstreren de superioriteit van DialogStudio. Om transparantie
te verbeteren en onderzoek op basis van datasets en taken, evenals
pre-training van taalmodelen, te ondersteunen, zijn alle datasets, licenties,
codes en modellen die bij DialogStudio horen openbaar toegankelijk gemaakt op
https://github.com/salesforce/DialogStudio.
English
Despite advancements in conversational AI, language models encounter
challenges to handle diverse conversational tasks, and existing dialogue
dataset collections often lack diversity and comprehensiveness. To tackle these
issues, we introduce DialogStudio: the largest and most diverse collection of
dialogue datasets, unified under a consistent format while preserving their
original information. Our collection encompasses data from open-domain
dialogues, task-oriented dialogues, natural language understanding,
conversational recommendation, dialogue summarization, and knowledge-grounded
dialogues, making it an incredibly rich and diverse resource for dialogue
research and model training. To further enhance the utility of DialogStudio, we
identify the licenses for each dataset and design domain-aware prompts for
selected dialogues to facilitate instruction-aware fine-tuning. Furthermore, we
develop conversational AI models using the dataset collection, and our
experiments in both zero-shot and few-shot learning scenarios demonstrate the
superiority of DialogStudio. To improve transparency and support dataset and
task-based research, as well as language model pre-training, all datasets,
licenses, codes, and models associated with DialogStudio are made publicly
accessible at https://github.com/salesforce/DialogStudio