Miglioramento dei Modelli Linguistici per Chat attraverso il Ridimensionamento di Conversazioni Istruttive di Alta Qualità

Abstract

Il fine-tuning su dati di istruzione è stato ampiamente validato come pratica efficace per implementare modelli linguistici di chat come ChatGPT. Scalare la diversità e la qualità di tali dati, sebbene semplice, ha un'alta probabilità di portare a un miglioramento delle prestazioni. Questo articolo mira a migliorare ulteriormente il limite superiore dei modelli open-source. Iniziamo fornendo un dataset su larga scala, sistematicamente progettato, diversificato e informativo di conversazioni istruzionali, UltraChat, che non coinvolge query umane. Il nostro obiettivo è catturare l'ampiezza delle interazioni che un umano potrebbe avere con un assistente AI e impiegare un framework completo per generare iterativamente conversazioni multi-turn. UltraChat contiene 1,5 milioni di dialoghi multi-turn di alta qualità e copre un'ampia gamma di argomenti e istruzioni. La nostra analisi statistica di UltraChat ne rivela la superiorità in varie metriche chiave, tra cui scala, lunghezza media, diversità, coerenza, ecc., consolidando la sua posizione come dataset open-source leader. Basandoci su UltraChat, abbiamo eseguito il fine-tuning di un modello LLaMA per creare un potente modello conversazionale, UltraLLaMA. Le nostre valutazioni indicano che UltraLLaMA supera costantemente altri modelli open-source, incluso Vicuna, il precedente modello open-source riconosciuto come stato dell'arte. Il dataset e il modello saranno rilasciati pubblicamente\url{https://github.com/thunlp/UltraChat}.

English

Fine-tuning on instruction data has been widely validated as an effective practice for implementing chat language models like ChatGPT. Scaling the diversity and quality of such data, although straightforward, stands a great chance of leading to improved performance. This paper aims to improve the upper bound of open-source models further. We first provide a systematically designed, diverse, informative, large-scale dataset of instructional conversations, UltraChat, which does not involve human queries. Our objective is to capture the breadth of interactions that a human might have with an AI assistant and employs a comprehensive framework to generate multi-turn conversation iteratively. UltraChat contains 1.5 million high-quality multi-turn dialogues and covers a wide range of topics and instructions. Our statistical analysis of UltraChat reveals its superiority in various key metrics, including scale, average length, diversity, coherence, etc., solidifying its position as a leading open-source dataset. Building upon UltraChat, we fine-tune a LLaMA model to create a powerful conversational model, UltraLLaMA. Our evaluations indicate that UltraLLaMA consistently outperforms other open-source models, including Vicuna, the previously recognized state-of-the-art open-source model. The dataset and the model will be publicly released\url{https://github.com/thunlp/UltraChat}.

Miglioramento dei Modelli Linguistici per Chat attraverso il Ridimensionamento di Conversazioni Istruttive di Alta Qualità

Enhancing Chat Language Models by Scaling High-quality Instructional Conversations

Abstract

Support