Adattamento di Modelli Linguistici di Grande Scala tramite Comprensione della Lettura
Adapting Large Language Models via Reading Comprehension
September 18, 2023
Autori: Daixuan Cheng, Shaohan Huang, Furu Wei
cs.AI
Abstract
Esploriamo come il pre-addestramento continuo su corpora specifici di dominio influenzi i grandi modelli linguistici, rivelando che l'addestramento sui corpora grezzi conferisce al modello conoscenze di dominio, ma compromette drasticamente la sua capacità di rispondere a prompt per il question answering. Ispirandoci all'apprendimento umano tramite la comprensione della lettura—dove la pratica dopo la lettura migliora la capacità di rispondere a domande basate sulle conoscenze acquisite—proponiamo un metodo semplice per trasformare i corpora grezzi in testi di comprensione della lettura. Ogni testo grezzo viene arricchito con una serie di attività relative al suo contenuto. Il nostro metodo, altamente scalabile e applicabile a qualsiasi corpora di pre-addestramento, migliora costantemente le prestazioni in vari compiti in tre diversi domini: biomedicina, finanza e diritto. In particolare, il nostro modello linguistico da 7B raggiunge prestazioni competitive con modelli specifici di dominio di dimensioni molto maggiori, come BloombergGPT-50B. Inoltre, dimostriamo che i testi di comprensione della lettura specifici per un dominio possono migliorare le prestazioni del modello anche su benchmark generali, mostrando il potenziale per sviluppare un modello generale in ancora più domini. Il nostro modello, il codice e i dati saranno disponibili su https://github.com/microsoft/LMOps.
English
We explore how continued pre-training on domain-specific corpora influences
large language models, revealing that training on the raw corpora endows the
model with domain knowledge, but drastically hurts its prompting ability for
question answering. Taken inspiration from human learning via reading
comprehension--practice after reading improves the ability to answer questions
based on the learned knowledge--we propose a simple method for transforming raw
corpora into reading comprehension texts. Each raw text is enriched with a
series of tasks related to its content. Our method, highly scalable and
applicable to any pre-training corpora, consistently enhances performance
across various tasks in three different domains: biomedicine, finance, and law.
Notably, our 7B language model achieves competitive performance with
domain-specific models of much larger scales, such as BloombergGPT-50B.
Furthermore, we demonstrate that domain-specific reading comprehension texts
can improve the model's performance even on general benchmarks, showing the
potential to develop a general model across even more domains. Our model, code,
and data will be available at https://github.com/microsoft/LMOps.