DialogStudio: К созданию наиболее полного и разнообразного унифицированного набора данных для диалогового ИИ
DialogStudio: Towards Richest and Most Diverse Unified Dataset Collection for Conversational AI
July 19, 2023
Авторы: Jianguo Zhang, Kun Qian, Zhiwei Liu, Shelby Heinecke, Rui Meng, Ye Liu, Zhou Yu, Huan Wang, Silvio Savarese, Caiming Xiong
cs.AI
Аннотация
Несмотря на прогресс в области диалогового ИИ, языковые модели сталкиваются с трудностями при обработке разнообразных задач в диалогах, а существующие коллекции наборов данных для диалогов часто недостаточно разнообразны и всеобъемлющи. Для решения этих проблем мы представляем DialogStudio: самую крупную и разнообразную коллекцию наборов данных для диалогов, объединённых в единый формат при сохранении их исходной информации. Наша коллекция охватывает данные из открытых диалогов, целевых диалогов, понимания естественного языка, рекомендательных диалогов, суммаризации диалогов и диалогов, основанных на знаниях, что делает её чрезвычайно богатым и разнообразным ресурсом для исследований в области диалогов и обучения моделей. Для дальнейшего повышения полезности DialogStudio мы определяем лицензии для каждого набора данных и разрабатываем доменно-ориентированные промпты для выбранных диалогов, чтобы облегчить тонкую настройку с учётом инструкций. Кроме того, мы создаём модели диалогового ИИ, используя эту коллекцию данных, и наши эксперименты в сценариях обучения с нуля и с малым количеством примеров демонстрируют превосходство DialogStudio. Для повышения прозрачности и поддержки исследований, основанных на наборах данных и задачах, а также предварительного обучения языковых моделей, все наборы данных, лицензии, коды и модели, связанные с DialogStudio, доступны публично по адресу https://github.com/salesforce/DialogStudio.
English
Despite advancements in conversational AI, language models encounter
challenges to handle diverse conversational tasks, and existing dialogue
dataset collections often lack diversity and comprehensiveness. To tackle these
issues, we introduce DialogStudio: the largest and most diverse collection of
dialogue datasets, unified under a consistent format while preserving their
original information. Our collection encompasses data from open-domain
dialogues, task-oriented dialogues, natural language understanding,
conversational recommendation, dialogue summarization, and knowledge-grounded
dialogues, making it an incredibly rich and diverse resource for dialogue
research and model training. To further enhance the utility of DialogStudio, we
identify the licenses for each dataset and design domain-aware prompts for
selected dialogues to facilitate instruction-aware fine-tuning. Furthermore, we
develop conversational AI models using the dataset collection, and our
experiments in both zero-shot and few-shot learning scenarios demonstrate the
superiority of DialogStudio. To improve transparency and support dataset and
task-based research, as well as language model pre-training, all datasets,
licenses, codes, and models associated with DialogStudio are made publicly
accessible at https://github.com/salesforce/DialogStudio