Verbesserung von Chat-Sprachmodellen durch Skalierung hochwertiger instruktionaler Konversationen
Enhancing Chat Language Models by Scaling High-quality Instructional Conversations
May 23, 2023
Autoren: Ning Ding, Yulin Chen, Bokai Xu, Yujia Qin, Zhi Zheng, Shengding Hu, Zhiyuan Liu, Maosong Sun, Bowen Zhou
cs.AI
Zusammenfassung
Das Feinabstimmen auf Instruktionsdaten hat sich als effektive Praxis zur Implementierung von Chat-Sprachmodellen wie ChatGPT weitgehend bewährt. Die Skalierung der Vielfalt und Qualität solcher Daten, obwohl unkompliziert, bietet eine große Chance, die Leistung zu verbessern. Diese Arbeit zielt darauf ab, die Obergrenze von Open-Source-Modellen weiter zu verbessern. Zunächst stellen wir einen systematisch gestalteten, vielfältigen, informativen und groß angelegten Datensatz von Instruktionsgesprächen vor, UltraChat, der keine menschlichen Anfragen beinhaltet. Unser Ziel ist es, die Bandbreite der Interaktionen zu erfassen, die ein Mensch mit einem KI-Assistenten haben könnte, und ein umfassendes Framework zu verwenden, um mehrfache Gespräche iterativ zu generieren. UltraChat enthält 1,5 Millionen hochwertige mehrfache Dialoge und deckt eine breite Palette von Themen und Anweisungen ab. Unsere statistische Analyse von UltraChat zeigt seine Überlegenheit in verschiedenen Schlüsselmetriken, einschließlich Umfang, durchschnittlicher Länge, Vielfalt, Kohärenz usw., und festigt seine Position als führender Open-Source-Datensatz. Aufbauend auf UltraChat stimmen wir ein LLaMA-Modell fein, um ein leistungsstarkes Konversationsmodell, UltraLLaMA, zu erstellen. Unsere Bewertungen zeigen, dass UltraLLaMA durchweg andere Open-Source-Modelle, einschließlich Vicuna, das bisher als state-of-the-art anerkannte Open-Source-Modell, übertrifft. Der Datensatz und das Modell werden öffentlich freigegeben\url{https://github.com/thunlp/UltraChat}.
English
Fine-tuning on instruction data has been widely validated as an effective
practice for implementing chat language models like ChatGPT. Scaling the
diversity and quality of such data, although straightforward, stands a great
chance of leading to improved performance. This paper aims to improve the upper
bound of open-source models further. We first provide a systematically
designed, diverse, informative, large-scale dataset of instructional
conversations, UltraChat, which does not involve human queries. Our objective
is to capture the breadth of interactions that a human might have with an AI
assistant and employs a comprehensive framework to generate multi-turn
conversation iteratively. UltraChat contains 1.5 million high-quality
multi-turn dialogues and covers a wide range of topics and instructions. Our
statistical analysis of UltraChat reveals its superiority in various key
metrics, including scale, average length, diversity, coherence, etc.,
solidifying its position as a leading open-source dataset. Building upon
UltraChat, we fine-tune a LLaMA model to create a powerful conversational
model, UltraLLaMA. Our evaluations indicate that UltraLLaMA consistently
outperforms other open-source models, including Vicuna, the previously
recognized state-of-the-art open-source model. The dataset and the model will
be publicly released\url{https://github.com/thunlp/UltraChat}.