Улучшение языковых моделей для чатов за счет масштабирования высококачественных обучающих диалогов
Enhancing Chat Language Models by Scaling High-quality Instructional Conversations
May 23, 2023
Авторы: Ning Ding, Yulin Chen, Bokai Xu, Yujia Qin, Zhi Zheng, Shengding Hu, Zhiyuan Liu, Maosong Sun, Bowen Zhou
cs.AI
Аннотация
Тонкая настройка на данных инструкций широко признана эффективной практикой для реализации чат-моделей языка, таких как ChatGPT. Увеличение разнообразия и качества таких данных, хотя и является простым, с большой вероятностью приводит к улучшению производительности. В данной статье мы стремимся еще больше повысить верхнюю границу производительности моделей с открытым исходным кодом. Сначала мы представляем систематически разработанный, разнообразный, информативный и масштабный набор данных инструктивных диалогов UltraChat, который не включает запросы от людей. Наша цель — охватить весь спектр взаимодействий, которые человек может иметь с ИИ-ассистентом, и использовать комплексную структуру для итеративной генерации многоходовых диалогов. UltraChat содержит 1,5 миллиона высококачественных многоходовых диалогов и охватывает широкий круг тем и инструкций. Наш статистический анализ UltraChat демонстрирует его превосходство по различным ключевым метрикам, включая масштаб, среднюю длину, разнообразие, связность и т.д., что укрепляет его позицию как ведущего набора данных с открытым исходным кодом. На основе UltraChat мы проводим тонкую настройку модели LLaMA, создавая мощную диалоговую модель UltraLLaMA. Наши оценки показывают, что UltraLLaMA стабильно превосходит другие модели с открытым исходным кодом, включая Vicuna, ранее признанную передовой моделью с открытым исходным кодом. Набор данных и модель будут публично доступны по адресу \url{https://github.com/thunlp/UltraChat}.
English
Fine-tuning on instruction data has been widely validated as an effective
practice for implementing chat language models like ChatGPT. Scaling the
diversity and quality of such data, although straightforward, stands a great
chance of leading to improved performance. This paper aims to improve the upper
bound of open-source models further. We first provide a systematically
designed, diverse, informative, large-scale dataset of instructional
conversations, UltraChat, which does not involve human queries. Our objective
is to capture the breadth of interactions that a human might have with an AI
assistant and employs a comprehensive framework to generate multi-turn
conversation iteratively. UltraChat contains 1.5 million high-quality
multi-turn dialogues and covers a wide range of topics and instructions. Our
statistical analysis of UltraChat reveals its superiority in various key
metrics, including scale, average length, diversity, coherence, etc.,
solidifying its position as a leading open-source dataset. Building upon
UltraChat, we fine-tune a LLaMA model to create a powerful conversational
model, UltraLLaMA. Our evaluations indicate that UltraLLaMA consistently
outperforms other open-source models, including Vicuna, the previously
recognized state-of-the-art open-source model. The dataset and the model will
be publicly released\url{https://github.com/thunlp/UltraChat}.