DialogStudio: Auf dem Weg zur umfangreichsten und vielfältigsten vereinheitlichten Datensatzsammlung für konversationelle KI
DialogStudio: Towards Richest and Most Diverse Unified Dataset Collection for Conversational AI
July 19, 2023
Autoren: Jianguo Zhang, Kun Qian, Zhiwei Liu, Shelby Heinecke, Rui Meng, Ye Liu, Zhou Yu, Huan Wang, Silvio Savarese, Caiming Xiong
cs.AI
Zusammenfassung
Trotz Fortschritten in der konversationellen KI stoßen Sprachmodelle auf Herausforderungen bei der Bewältigung verschiedenster Konversationsaufgaben, und bestehende Sammlungen von Dialogdatensätzen weisen oft mangelnde Vielfalt und Vollständigkeit auf. Um diese Probleme zu lösen, stellen wir DialogStudio vor: die größte und vielfältigste Sammlung von Dialogdatensätzen, die in einem einheitlichen Format vereint sind, während ihre ursprünglichen Informationen erhalten bleiben. Unsere Sammlung umfasst Daten aus offenen Dialogen, aufgabenorientierten Dialogen, natürlichem Sprachverständnis, konversationellen Empfehlungen, Dialogzusammenfassungen und wissensbasierten Dialogen, was sie zu einer äußerst reichhaltigen und vielfältigen Ressource für die Dialogforschung und Modelltraining macht. Um den Nutzen von DialogStudio weiter zu steigern, identifizieren wir die Lizenzen für jeden Datensatz und entwerfen domänenbewusste Prompts für ausgewählte Dialoge, um das feinabgestimmte Training mit Anweisungen zu erleichtern. Darüber hinaus entwickeln wir konversationelle KI-Modelle mit der Datensatzsammlung, und unsere Experimente in sowohl Zero-Shot- als auch Few-Shot-Lernszenarien demonstrieren die Überlegenheit von DialogStudio. Um die Transparenz zu verbessern und die Forschung zu Datensätzen und Aufgaben sowie das Pre-Training von Sprachmodellen zu unterstützen, sind alle Datensätze, Lizenzen, Codes und Modelle, die mit DialogStudio verbunden sind, öffentlich zugänglich unter https://github.com/salesforce/DialogStudio.
English
Despite advancements in conversational AI, language models encounter
challenges to handle diverse conversational tasks, and existing dialogue
dataset collections often lack diversity and comprehensiveness. To tackle these
issues, we introduce DialogStudio: the largest and most diverse collection of
dialogue datasets, unified under a consistent format while preserving their
original information. Our collection encompasses data from open-domain
dialogues, task-oriented dialogues, natural language understanding,
conversational recommendation, dialogue summarization, and knowledge-grounded
dialogues, making it an incredibly rich and diverse resource for dialogue
research and model training. To further enhance the utility of DialogStudio, we
identify the licenses for each dataset and design domain-aware prompts for
selected dialogues to facilitate instruction-aware fine-tuning. Furthermore, we
develop conversational AI models using the dataset collection, and our
experiments in both zero-shot and few-shot learning scenarios demonstrate the
superiority of DialogStudio. To improve transparency and support dataset and
task-based research, as well as language model pre-training, all datasets,
licenses, codes, and models associated with DialogStudio are made publicly
accessible at https://github.com/salesforce/DialogStudio