DialogStudio: 대화형 AI를 위한 가장 풍부하고 다양한 통합 데이터셋 컬렉션을 향하여
DialogStudio: Towards Richest and Most Diverse Unified Dataset Collection for Conversational AI
July 19, 2023
저자: Jianguo Zhang, Kun Qian, Zhiwei Liu, Shelby Heinecke, Rui Meng, Ye Liu, Zhou Yu, Huan Wang, Silvio Savarese, Caiming Xiong
cs.AI
초록
대화형 AI의 발전에도 불구하고, 언어 모델은 다양한 대화 작업을 처리하는 데 어려움을 겪으며, 기존의 대화 데이터셋 컬렉션은 다양성과 포괄성이 부족한 경우가 많습니다. 이러한 문제를 해결하기 위해, 우리는 DialogStudio를 소개합니다: 가장 크고 다양한 대화 데이터셋 컬렉션으로, 일관된 형식으로 통합되면서도 원본 정보를 보존합니다. 우리의 컬렉션은 개방형 도메인 대화, 작업 지향 대화, 자연어 이해, 대화형 추천, 대화 요약, 지식 기반 대화 등 다양한 데이터를 포함하여 대화 연구와 모델 학습을 위한 매우 풍부하고 다양한 리소스를 제공합니다. DialogStudio의 유용성을 더욱 높이기 위해, 각 데이터셋의 라이선스를 식별하고 선택된 대화에 대해 도메인 인식 프롬프트를 설계하여 지시어 인식 미세 조정을 용이하게 합니다. 또한, 이 데이터셋 컬렉션을 사용하여 대화형 AI 모델을 개발했으며, 제로샷 및 퓨샷 학습 시나리오에서의 실험을 통해 DialogStudio의 우수성을 입증했습니다. 투명성을 높이고 데이터셋 및 작업 기반 연구, 그리고 언어 모델 사전 학습을 지원하기 위해, DialogStudio와 관련된 모든 데이터셋, 라이선스, 코드, 모델은 https://github.com/salesforce/DialogStudio에서 공개적으로 접근 가능합니다.
English
Despite advancements in conversational AI, language models encounter
challenges to handle diverse conversational tasks, and existing dialogue
dataset collections often lack diversity and comprehensiveness. To tackle these
issues, we introduce DialogStudio: the largest and most diverse collection of
dialogue datasets, unified under a consistent format while preserving their
original information. Our collection encompasses data from open-domain
dialogues, task-oriented dialogues, natural language understanding,
conversational recommendation, dialogue summarization, and knowledge-grounded
dialogues, making it an incredibly rich and diverse resource for dialogue
research and model training. To further enhance the utility of DialogStudio, we
identify the licenses for each dataset and design domain-aware prompts for
selected dialogues to facilitate instruction-aware fine-tuning. Furthermore, we
develop conversational AI models using the dataset collection, and our
experiments in both zero-shot and few-shot learning scenarios demonstrate the
superiority of DialogStudio. To improve transparency and support dataset and
task-based research, as well as language model pre-training, all datasets,
licenses, codes, and models associated with DialogStudio are made publicly
accessible at https://github.com/salesforce/DialogStudio