Aprimorando Modelos de Linguagem para Chat por meio da Escalonamento de Conversas Instrucionais de Alta Qualidade
Enhancing Chat Language Models by Scaling High-quality Instructional Conversations
May 23, 2023
Autores: Ning Ding, Yulin Chen, Bokai Xu, Yujia Qin, Zhi Zheng, Shengding Hu, Zhiyuan Liu, Maosong Sun, Bowen Zhou
cs.AI
Resumo
O ajuste fino em dados de instrução tem sido amplamente validado como uma prática eficaz para implementar modelos de linguagem de chat como o ChatGPT. Escalonar a diversidade e a qualidade desses dados, embora direto, tem grande potencial de levar a um desempenho aprimorado. Este artigo visa melhorar ainda mais o limite superior dos modelos de código aberto. Primeiro, fornecemos um conjunto de dados de conversas instrucionais sistematicamente projetado, diversificado, informativo e em grande escala, o UltraChat, que não envolve consultas humanas. Nosso objetivo é capturar a amplitude das interações que um humano poderia ter com um assistente de IA e empregar um framework abrangente para gerar conversas de múltiplos turnos iterativamente. O UltraChat contém 1,5 milhão de diálogos de alta qualidade com múltiplos turnos e abrange uma ampla gama de tópicos e instruções. Nossa análise estatística do UltraChat revela sua superioridade em várias métricas-chave, incluindo escala, comprimento médio, diversidade, coerência, etc., solidificando sua posição como um dos principais conjuntos de dados de código aberto. Com base no UltraChat, ajustamos fino um modelo LLaMA para criar um poderoso modelo conversacional, o UltraLLaMA. Nossas avaliações indicam que o UltraLLaMA consistentemente supera outros modelos de código aberto, incluindo o Vicuna, o modelo de código aberto reconhecido anteriormente como estado da arte. O conjunto de dados e o modelo serão disponibilizados publicamente\url{https://github.com/thunlp/UltraChat}.
English
Fine-tuning on instruction data has been widely validated as an effective
practice for implementing chat language models like ChatGPT. Scaling the
diversity and quality of such data, although straightforward, stands a great
chance of leading to improved performance. This paper aims to improve the upper
bound of open-source models further. We first provide a systematically
designed, diverse, informative, large-scale dataset of instructional
conversations, UltraChat, which does not involve human queries. Our objective
is to capture the breadth of interactions that a human might have with an AI
assistant and employs a comprehensive framework to generate multi-turn
conversation iteratively. UltraChat contains 1.5 million high-quality
multi-turn dialogues and covers a wide range of topics and instructions. Our
statistical analysis of UltraChat reveals its superiority in various key
metrics, including scale, average length, diversity, coherence, etc.,
solidifying its position as a leading open-source dataset. Building upon
UltraChat, we fine-tune a LLaMA model to create a powerful conversational
model, UltraLLaMA. Our evaluations indicate that UltraLLaMA consistently
outperforms other open-source models, including Vicuna, the previously
recognized state-of-the-art open-source model. The dataset and the model will
be publicly released\url{https://github.com/thunlp/UltraChat}.