Adaptando Modelos de Linguagem de Grande Escala por meio de Compreensão de Leitura
Adapting Large Language Models via Reading Comprehension
September 18, 2023
Autores: Daixuan Cheng, Shaohan Huang, Furu Wei
cs.AI
Resumo
Exploramos como o pré-treinamento contínuo em corpora específicos de domínio influencia grandes modelos de linguagem, revelando que o treinamento em corpora brutos confere ao modelo conhecimento do domínio, mas prejudica drasticamente sua capacidade de resposta a prompts para tarefas de questionamento. Inspirados pela aprendizagem humana por meio de compreensão de leitura—a prática após a leitura melhora a capacidade de responder perguntas com base no conhecimento adquirido—propusemos um método simples para transformar corpora brutos em textos de compreensão de leitura. Cada texto bruto é enriquecido com uma série de tarefas relacionadas ao seu conteúdo. Nosso método, altamente escalável e aplicável a qualquer corpora de pré-treinamento, melhora consistentemente o desempenho em várias tarefas em três domínios diferentes: biomedicina, finanças e direito. Notavelmente, nosso modelo de linguagem de 7B alcança desempenho competitivo com modelos específicos de domínio de escalas muito maiores, como o BloombergGPT-50B. Além disso, demonstramos que textos de compreensão de leitura específicos do domínio podem melhorar o desempenho do modelo mesmo em benchmarks gerais, mostrando o potencial de desenvolver um modelo geral em ainda mais domínios. Nosso modelo, código e dados estarão disponíveis em https://github.com/microsoft/LMOps.
English
We explore how continued pre-training on domain-specific corpora influences
large language models, revealing that training on the raw corpora endows the
model with domain knowledge, but drastically hurts its prompting ability for
question answering. Taken inspiration from human learning via reading
comprehension--practice after reading improves the ability to answer questions
based on the learned knowledge--we propose a simple method for transforming raw
corpora into reading comprehension texts. Each raw text is enriched with a
series of tasks related to its content. Our method, highly scalable and
applicable to any pre-training corpora, consistently enhances performance
across various tasks in three different domains: biomedicine, finance, and law.
Notably, our 7B language model achieves competitive performance with
domain-specific models of much larger scales, such as BloombergGPT-50B.
Furthermore, we demonstrate that domain-specific reading comprehension texts
can improve the model's performance even on general benchmarks, showing the
potential to develop a general model across even more domains. Our model, code,
and data will be available at https://github.com/microsoft/LMOps.