ChatPaper.aiChatPaper

DialogStudio:会話型AIのための最も豊かで多様な統合データセットコレクションを目指して

DialogStudio: Towards Richest and Most Diverse Unified Dataset Collection for Conversational AI

July 19, 2023
著者: Jianguo Zhang, Kun Qian, Zhiwei Liu, Shelby Heinecke, Rui Meng, Ye Liu, Zhou Yu, Huan Wang, Silvio Savarese, Caiming Xiong
cs.AI

要旨

会話型AIの進歩にもかかわらず、言語モデルは多様な会話タスクを処理する上で課題に直面しており、既存の対話データセットコレクションは多様性と包括性に欠けることが多い。これらの問題に対処するため、我々はDialogStudioを紹介する:これは最も大規模で多様な対話データセットのコレクションであり、一貫した形式で統一されながらも、元の情報を保持している。我々のコレクションは、オープンドメイン対話、タスク指向対話、自然言語理解、会話型レコメンデーション、対話要約、知識基盤型対話などからのデータを網羅しており、対話研究やモデルトレーニングのための非常に豊かで多様なリソースとなっている。DialogStudioの有用性をさらに高めるため、各データセットのライセンスを特定し、選択された対話に対してドメインを意識したプロンプトを設計し、指示を意識したファインチューニングを容易にした。さらに、このデータセットコレクションを使用して会話型AIモデルを開発し、ゼロショット学習と少数ショット学習のシナリオでの実験を通じて、DialogStudioの優位性を実証した。透明性を向上させ、データセットとタスクベースの研究、および言語モデルの事前学習を支援するため、DialogStudioに関連するすべてのデータセット、ライセンス、コード、モデルをhttps://github.com/salesforce/DialogStudioで公開している。
English
Despite advancements in conversational AI, language models encounter challenges to handle diverse conversational tasks, and existing dialogue dataset collections often lack diversity and comprehensiveness. To tackle these issues, we introduce DialogStudio: the largest and most diverse collection of dialogue datasets, unified under a consistent format while preserving their original information. Our collection encompasses data from open-domain dialogues, task-oriented dialogues, natural language understanding, conversational recommendation, dialogue summarization, and knowledge-grounded dialogues, making it an incredibly rich and diverse resource for dialogue research and model training. To further enhance the utility of DialogStudio, we identify the licenses for each dataset and design domain-aware prompts for selected dialogues to facilitate instruction-aware fine-tuning. Furthermore, we develop conversational AI models using the dataset collection, and our experiments in both zero-shot and few-shot learning scenarios demonstrate the superiority of DialogStudio. To improve transparency and support dataset and task-based research, as well as language model pre-training, all datasets, licenses, codes, and models associated with DialogStudio are made publicly accessible at https://github.com/salesforce/DialogStudio
PDF120December 15, 2024