ChatPaper.aiChatPaper

Pré-treinamento de Instruções: Modelos de Linguagem são Aprendizes Supervisionados de Múltiplas Tarefas

Instruction Pre-Training: Language Models are Supervised Multitask Learners

June 20, 2024
Autores: Daixuan Cheng, Yuxian Gu, Shaohan Huang, Junyu Bi, Minlie Huang, Furu Wei
cs.AI

Resumo

O pré-treinamento multitarefa não supervisionado tem sido o método crucial por trás do recente sucesso dos modelos de linguagem (LMs). No entanto, o aprendizado multitarefa supervisionado ainda mantém uma promessa significativa, uma vez que sua escalonamento na fase de pós-treinamento tende a melhorar a generalização. Neste artigo, exploramos o pré-treinamento multitarefa supervisionado propondo o Pré-Treinamento por Instrução, um framework que aumenta de forma escalável grandes corpora brutos com pares de instrução-resposta para pré-treinar LMs. Os pares de instrução-resposta são gerados por um sintetizador de instruções eficiente construído sobre modelos de código aberto. Em nossos experimentos, sintetizamos 200 milhões de pares de instrução-resposta cobrindo mais de 40 categorias de tarefas para verificar a eficácia do Pré-Treinamento por Instrução. No pré-treinamento a partir do zero, o Pré-Treinamento por Instrução não apenas melhora consistentemente os modelos base pré-treinados, mas também se beneficia mais com o ajuste adicional por instrução. No pré-treinamento contínuo, o Pré-Treinamento por Instrução permite que o Llama3-8B seja comparável ou até supere o Llama3-70B. Nosso modelo, código e dados estão disponíveis em https://github.com/microsoft/LMOps.
English
Unsupervised multitask pre-training has been the critical method behind the recent success of language models (LMs). However, supervised multitask learning still holds significant promise, as scaling it in the post-training stage trends towards better generalization. In this paper, we explore supervised multitask pre-training by proposing Instruction Pre-Training, a framework that scalably augments massive raw corpora with instruction-response pairs to pre-train LMs. The instruction-response pairs are generated by an efficient instruction synthesizer built on open-source models. In our experiments, we synthesize 200M instruction-response pairs covering 40+ task categories to verify the effectiveness of Instruction Pre-Training. In pre-training from scratch, Instruction Pre-Training not only consistently enhances pre-trained base models but also benefits more from further instruction tuning. In continual pre-training, Instruction Pre-Training enables Llama3-8B to be comparable to or even outperform Llama3-70B. Our model, code, and data are available at https://github.com/microsoft/LMOps.
PDF9425December 2, 2024