高品質な指示対話のスケーリングによるチャット言語モデルの強化
Enhancing Chat Language Models by Scaling High-quality Instructional Conversations
May 23, 2023
著者: Ning Ding, Yulin Chen, Bokai Xu, Yujia Qin, Zhi Zheng, Shengding Hu, Zhiyuan Liu, Maosong Sun, Bowen Zhou
cs.AI
要旨
命令データに対するファインチューニングは、ChatGPTのようなチャット言語モデルを実装するための効果的な手法として広く検証されてきた。そのようなデータの多様性と品質をスケールアップすることは、直接的ではあるが、性能向上につながる大きな可能性を秘めている。本論文は、オープンソースモデルの上限をさらに向上させることを目的としている。まず、人間のクエリを必要としない、体系的に設計された多様で有益な大規模な命令会話データセット、UltraChatを提供する。我々の目的は、人間がAIアシスタントと行う可能性のある相互作用の幅を捉え、多段階の会話を反復的に生成する包括的なフレームワークを採用することである。UltraChatは150万件の高品質な多段階ダイアログを含み、幅広いトピックと命令をカバーしている。UltraChatの統計分析により、スケール、平均長、多様性、一貫性などのさまざまな主要指標においてその優位性が明らかになり、主要なオープンソースデータセットとしての地位を確固たるものにしている。UltraChatを基盤として、LLaMAモデルをファインチューニングし、強力な会話モデルであるUltraLLaMAを作成した。我々の評価によると、UltraLLaMAは、以前に最先端のオープンソースモデルと認識されていたVicunaを含む他のオープンソースモデルを一貫して上回っている。データセットとモデルは公開される予定である\url{https://github.com/thunlp/UltraChat}。
English
Fine-tuning on instruction data has been widely validated as an effective
practice for implementing chat language models like ChatGPT. Scaling the
diversity and quality of such data, although straightforward, stands a great
chance of leading to improved performance. This paper aims to improve the upper
bound of open-source models further. We first provide a systematically
designed, diverse, informative, large-scale dataset of instructional
conversations, UltraChat, which does not involve human queries. Our objective
is to capture the breadth of interactions that a human might have with an AI
assistant and employs a comprehensive framework to generate multi-turn
conversation iteratively. UltraChat contains 1.5 million high-quality
multi-turn dialogues and covers a wide range of topics and instructions. Our
statistical analysis of UltraChat reveals its superiority in various key
metrics, including scale, average length, diversity, coherence, etc.,
solidifying its position as a leading open-source dataset. Building upon
UltraChat, we fine-tune a LLaMA model to create a powerful conversational
model, UltraLLaMA. Our evaluations indicate that UltraLLaMA consistently
outperforms other open-source models, including Vicuna, the previously
recognized state-of-the-art open-source model. The dataset and the model will
be publicly released\url{https://github.com/thunlp/UltraChat}.