Miglioramento dei Modelli Linguistici per Chat attraverso il Ridimensionamento di Conversazioni Istruttive di Alta Qualità
Enhancing Chat Language Models by Scaling High-quality Instructional Conversations
May 23, 2023
Autori: Ning Ding, Yulin Chen, Bokai Xu, Yujia Qin, Zhi Zheng, Shengding Hu, Zhiyuan Liu, Maosong Sun, Bowen Zhou
cs.AI
Abstract
Il fine-tuning su dati di istruzione è stato ampiamente validato come pratica efficace per implementare modelli linguistici di chat come ChatGPT. Scalare la diversità e la qualità di tali dati, sebbene semplice, ha un'alta probabilità di portare a un miglioramento delle prestazioni. Questo articolo mira a migliorare ulteriormente il limite superiore dei modelli open-source. Iniziamo fornendo un dataset su larga scala, sistematicamente progettato, diversificato e informativo di conversazioni istruzionali, UltraChat, che non coinvolge query umane. Il nostro obiettivo è catturare l'ampiezza delle interazioni che un umano potrebbe avere con un assistente AI e impiegare un framework completo per generare iterativamente conversazioni multi-turn. UltraChat contiene 1,5 milioni di dialoghi multi-turn di alta qualità e copre un'ampia gamma di argomenti e istruzioni. La nostra analisi statistica di UltraChat ne rivela la superiorità in varie metriche chiave, tra cui scala, lunghezza media, diversità, coerenza, ecc., consolidando la sua posizione come dataset open-source leader. Basandoci su UltraChat, abbiamo eseguito il fine-tuning di un modello LLaMA per creare un potente modello conversazionale, UltraLLaMA. Le nostre valutazioni indicano che UltraLLaMA supera costantemente altri modelli open-source, incluso Vicuna, il precedente modello open-source riconosciuto come stato dell'arte. Il dataset e il modello saranno rilasciati pubblicamente\url{https://github.com/thunlp/UltraChat}.
English
Fine-tuning on instruction data has been widely validated as an effective
practice for implementing chat language models like ChatGPT. Scaling the
diversity and quality of such data, although straightforward, stands a great
chance of leading to improved performance. This paper aims to improve the upper
bound of open-source models further. We first provide a systematically
designed, diverse, informative, large-scale dataset of instructional
conversations, UltraChat, which does not involve human queries. Our objective
is to capture the breadth of interactions that a human might have with an AI
assistant and employs a comprehensive framework to generate multi-turn
conversation iteratively. UltraChat contains 1.5 million high-quality
multi-turn dialogues and covers a wide range of topics and instructions. Our
statistical analysis of UltraChat reveals its superiority in various key
metrics, including scale, average length, diversity, coherence, etc.,
solidifying its position as a leading open-source dataset. Building upon
UltraChat, we fine-tune a LLaMA model to create a powerful conversational
model, UltraLLaMA. Our evaluations indicate that UltraLLaMA consistently
outperforms other open-source models, including Vicuna, the previously
recognized state-of-the-art open-source model. The dataset and the model will
be publicly released\url{https://github.com/thunlp/UltraChat}.