DialogStudio: Verso la Raccolta di Dataset Unificati più Ricchi e Diversificati per l'Intelligenza Artificiale Conversazionale
DialogStudio: Towards Richest and Most Diverse Unified Dataset Collection for Conversational AI
July 19, 2023
Autori: Jianguo Zhang, Kun Qian, Zhiwei Liu, Shelby Heinecke, Rui Meng, Ye Liu, Zhou Yu, Huan Wang, Silvio Savarese, Caiming Xiong
cs.AI
Abstract
Nonostante i progressi nell'IA conversazionale, i modelli linguistici incontrano difficoltà nel gestire una varietà di compiti conversazionali, e le raccolte di dataset di dialogo esistenti spesso mancano di diversità e completezza. Per affrontare questi problemi, introduciamo DialogStudio: la più vasta e diversificata raccolta di dataset di dialogo, unificati in un formato coerente pur preservando le loro informazioni originali. La nostra raccolta include dati provenienti da dialoghi a dominio aperto, dialoghi orientati al compito, comprensione del linguaggio naturale, raccomandazione conversazionale, riepilogo di dialoghi e dialoghi basati sulla conoscenza, rendendola una risorsa estremamente ricca e diversificata per la ricerca sui dialoghi e l'addestramento di modelli. Per migliorare ulteriormente l'utilità di DialogStudio, identifichiamo le licenze per ciascun dataset e progettiamo prompt sensibili al dominio per dialoghi selezionati, al fine di facilitare il fine-tuning basato su istruzioni. Inoltre, sviluppiamo modelli di IA conversazionale utilizzando la raccolta di dataset, e i nostri esperimenti in scenari di apprendimento zero-shot e few-shot dimostrano la superiorità di DialogStudio. Per aumentare la trasparenza e supportare la ricerca basata su dataset e compiti, nonché il pre-addestramento di modelli linguistici, tutti i dataset, le licenze, i codici e i modelli associati a DialogStudio sono resi pubblicamente accessibili all'indirizzo https://github.com/salesforce/DialogStudio.
English
Despite advancements in conversational AI, language models encounter
challenges to handle diverse conversational tasks, and existing dialogue
dataset collections often lack diversity and comprehensiveness. To tackle these
issues, we introduce DialogStudio: the largest and most diverse collection of
dialogue datasets, unified under a consistent format while preserving their
original information. Our collection encompasses data from open-domain
dialogues, task-oriented dialogues, natural language understanding,
conversational recommendation, dialogue summarization, and knowledge-grounded
dialogues, making it an incredibly rich and diverse resource for dialogue
research and model training. To further enhance the utility of DialogStudio, we
identify the licenses for each dataset and design domain-aware prompts for
selected dialogues to facilitate instruction-aware fine-tuning. Furthermore, we
develop conversational AI models using the dataset collection, and our
experiments in both zero-shot and few-shot learning scenarios demonstrate the
superiority of DialogStudio. To improve transparency and support dataset and
task-based research, as well as language model pre-training, all datasets,
licenses, codes, and models associated with DialogStudio are made publicly
accessible at https://github.com/salesforce/DialogStudio