Het verbeteren van chattaalmodellen door het schalen van hoogwaardige instructiegesprekken

Samenvatting

Fine-tuning op instructiedata is breed erkend als een effectieve praktijk voor het implementeren van chat-taalmodelen zoals ChatGPT. Het vergroten van de diversiteit en kwaliteit van dergelijke data, hoewel eenvoudig, biedt een grote kans op verbeterde prestaties. Dit artikel heeft als doel de bovengrens van open-source modellen verder te verbeteren. We presenteren eerst een systematisch ontworpen, diverse, informatieve en grootschalige dataset van instructiegesprekken, UltraChat, die geen menselijke vragen omvat. Ons doel is om de breedte van interacties vast te leggen die een mens zou kunnen hebben met een AI-assistent, en we gebruiken een uitgebreid raamwerk om iteratief meerzijdige gesprekken te genereren. UltraChat bevat 1,5 miljoen hoogwaardige meerzijdige dialogen en bestrijkt een breed scala aan onderwerpen en instructies. Onze statistische analyse van UltraChat toont de superioriteit ervan op verschillende belangrijke metrieken, waaronder schaal, gemiddelde lengte, diversiteit, samenhang, enz., wat zijn positie als een toonaangevende open-source dataset versterkt. Op basis van UltraChat fine-tunen we een LLaMA-model om een krachtig conversatiemodel te creëren, UltraLLaMA. Onze evaluaties geven aan dat UltraLLaMA consistent beter presteert dan andere open-source modellen, waaronder Vicuna, het voorheen erkende state-of-the-art open-source model. De dataset en het model zullen openbaar worden vrijgegeven\url{https://github.com/thunlp/UltraChat}.

English

Fine-tuning on instruction data has been widely validated as an effective practice for implementing chat language models like ChatGPT. Scaling the diversity and quality of such data, although straightforward, stands a great chance of leading to improved performance. This paper aims to improve the upper bound of open-source models further. We first provide a systematically designed, diverse, informative, large-scale dataset of instructional conversations, UltraChat, which does not involve human queries. Our objective is to capture the breadth of interactions that a human might have with an AI assistant and employs a comprehensive framework to generate multi-turn conversation iteratively. UltraChat contains 1.5 million high-quality multi-turn dialogues and covers a wide range of topics and instructions. Our statistical analysis of UltraChat reveals its superiority in various key metrics, including scale, average length, diversity, coherence, etc., solidifying its position as a leading open-source dataset. Building upon UltraChat, we fine-tune a LLaMA model to create a powerful conversational model, UltraLLaMA. Our evaluations indicate that UltraLLaMA consistently outperforms other open-source models, including Vicuna, the previously recognized state-of-the-art open-source model. The dataset and the model will be publicly released\url{https://github.com/thunlp/UltraChat}.

Het verbeteren van chattaalmodellen door het schalen van hoogwaardige instructiegesprekken

Enhancing Chat Language Models by Scaling High-quality Instructional Conversations

Samenvatting

Support