Het verbeteren van chattaalmodellen door het schalen van hoogwaardige instructiegesprekken
Enhancing Chat Language Models by Scaling High-quality Instructional Conversations
May 23, 2023
Auteurs: Ning Ding, Yulin Chen, Bokai Xu, Yujia Qin, Zhi Zheng, Shengding Hu, Zhiyuan Liu, Maosong Sun, Bowen Zhou
cs.AI
Samenvatting
Fine-tuning op instructiedata is breed erkend als een effectieve praktijk voor het implementeren van chat-taalmodelen zoals ChatGPT. Het vergroten van de diversiteit en kwaliteit van dergelijke data, hoewel eenvoudig, biedt een grote kans op verbeterde prestaties. Dit artikel heeft als doel de bovengrens van open-source modellen verder te verbeteren. We presenteren eerst een systematisch ontworpen, diverse, informatieve en grootschalige dataset van instructiegesprekken, UltraChat, die geen menselijke vragen omvat. Ons doel is om de breedte van interacties vast te leggen die een mens zou kunnen hebben met een AI-assistent, en we gebruiken een uitgebreid raamwerk om iteratief meerzijdige gesprekken te genereren. UltraChat bevat 1,5 miljoen hoogwaardige meerzijdige dialogen en bestrijkt een breed scala aan onderwerpen en instructies. Onze statistische analyse van UltraChat toont de superioriteit ervan op verschillende belangrijke metrieken, waaronder schaal, gemiddelde lengte, diversiteit, samenhang, enz., wat zijn positie als een toonaangevende open-source dataset versterkt. Op basis van UltraChat fine-tunen we een LLaMA-model om een krachtig conversatiemodel te creëren, UltraLLaMA. Onze evaluaties geven aan dat UltraLLaMA consistent beter presteert dan andere open-source modellen, waaronder Vicuna, het voorheen erkende state-of-the-art open-source model. De dataset en het model zullen openbaar worden vrijgegeven\url{https://github.com/thunlp/UltraChat}.
English
Fine-tuning on instruction data has been widely validated as an effective
practice for implementing chat language models like ChatGPT. Scaling the
diversity and quality of such data, although straightforward, stands a great
chance of leading to improved performance. This paper aims to improve the upper
bound of open-source models further. We first provide a systematically
designed, diverse, informative, large-scale dataset of instructional
conversations, UltraChat, which does not involve human queries. Our objective
is to capture the breadth of interactions that a human might have with an AI
assistant and employs a comprehensive framework to generate multi-turn
conversation iteratively. UltraChat contains 1.5 million high-quality
multi-turn dialogues and covers a wide range of topics and instructions. Our
statistical analysis of UltraChat reveals its superiority in various key
metrics, including scale, average length, diversity, coherence, etc.,
solidifying its position as a leading open-source dataset. Building upon
UltraChat, we fine-tune a LLaMA model to create a powerful conversational
model, UltraLLaMA. Our evaluations indicate that UltraLLaMA consistently
outperforms other open-source models, including Vicuna, the previously
recognized state-of-the-art open-source model. The dataset and the model will
be publicly released\url{https://github.com/thunlp/UltraChat}.