DialogStudio : Vers la collection de données unifiée la plus riche et la plus diversifiée pour l'IA conversationnelle
DialogStudio: Towards Richest and Most Diverse Unified Dataset Collection for Conversational AI
July 19, 2023
Auteurs: Jianguo Zhang, Kun Qian, Zhiwei Liu, Shelby Heinecke, Rui Meng, Ye Liu, Zhou Yu, Huan Wang, Silvio Savarese, Caiming Xiong
cs.AI
Résumé
Malgré les progrès réalisés dans l'IA conversationnelle, les modèles de langage rencontrent des difficultés pour gérer une variété de tâches conversationnelles, et les collections de jeux de données de dialogue existantes manquent souvent de diversité et d'exhaustivité. Pour résoudre ces problèmes, nous présentons DialogStudio : la collection de jeux de données de dialogue la plus vaste et la plus diversifiée, unifiée sous un format cohérent tout en préservant leurs informations originales. Notre collection englobe des données provenant de dialogues ouverts, de dialogues orientés tâches, de compréhension du langage naturel, de recommandation conversationnelle, de synthèse de dialogues et de dialogues fondés sur des connaissances, en faisant une ressource incroyablement riche et variée pour la recherche sur les dialogues et l'entraînement de modèles. Pour renforcer encore l'utilité de DialogStudio, nous identifions les licences pour chaque jeu de données et concevons des invites adaptées au domaine pour certains dialogues afin de faciliter le fine-tuning basé sur des instructions. De plus, nous développons des modèles d'IA conversationnelle en utilisant cette collection de jeux de données, et nos expériences dans des scénarios d'apprentissage zero-shot et few-shot démontrent la supériorité de DialogStudio. Pour améliorer la transparence et soutenir la recherche basée sur les jeux de données et les tâches, ainsi que le pré-entraînement des modèles de langage, tous les jeux de données, licences, codes et modèles associés à DialogStudio sont rendus accessibles au public à l'adresse suivante : https://github.com/salesforce/DialogStudio.
English
Despite advancements in conversational AI, language models encounter
challenges to handle diverse conversational tasks, and existing dialogue
dataset collections often lack diversity and comprehensiveness. To tackle these
issues, we introduce DialogStudio: the largest and most diverse collection of
dialogue datasets, unified under a consistent format while preserving their
original information. Our collection encompasses data from open-domain
dialogues, task-oriented dialogues, natural language understanding,
conversational recommendation, dialogue summarization, and knowledge-grounded
dialogues, making it an incredibly rich and diverse resource for dialogue
research and model training. To further enhance the utility of DialogStudio, we
identify the licenses for each dataset and design domain-aware prompts for
selected dialogues to facilitate instruction-aware fine-tuning. Furthermore, we
develop conversational AI models using the dataset collection, and our
experiments in both zero-shot and few-shot learning scenarios demonstrate the
superiority of DialogStudio. To improve transparency and support dataset and
task-based research, as well as language model pre-training, all datasets,
licenses, codes, and models associated with DialogStudio are made publicly
accessible at https://github.com/salesforce/DialogStudio