Grote Taalmodellen aanpassen via Leesbegrip
Adapting Large Language Models via Reading Comprehension
September 18, 2023
Auteurs: Daixuan Cheng, Shaohan Huang, Furu Wei
cs.AI
Samenvatting
We onderzoeken hoe voortgezette pre-training op domeinspecifieke corpora grote taalmodellen beïnvloedt, en ontdekken dat training op de ruwe corpora het model domeinkennis bijbrengt, maar zijn promptvaardigheid voor vraagbeantwoording aanzienlijk schaadt. Geïnspireerd door menselijk leren via begrijpend lezen—oefening na het lezen verbetert het vermogen om vragen te beantwoorden op basis van de opgedane kennis—stellen we een eenvoudige methode voor om ruwe corpora om te zetten in teksten voor begrijpend lezen. Elke ruwe tekst wordt verrijkt met een reeks taken die verband houden met de inhoud ervan. Onze methode, die zeer schaalbaar is en toepasbaar op alle pre-training corpora, verbetert consistent de prestaties bij verschillende taken in drie verschillende domeinen: biomedische wetenschappen, financiën en recht. Opmerkelijk is dat ons 7B-taalmodel competitieve prestaties behaalt met domeinspecifieke modellen van veel grotere omvang, zoals BloombergGPT-50B. Bovendien tonen we aan dat domeinspecifieke teksten voor begrijpend lezen de prestaties van het model zelfs op algemene benchmarks kunnen verbeteren, wat het potentieel aantoont om een algemeen model te ontwikkelen voor nog meer domeinen. Ons model, code en gegevens zullen beschikbaar zijn op https://github.com/microsoft/LMOps.
English
We explore how continued pre-training on domain-specific corpora influences
large language models, revealing that training on the raw corpora endows the
model with domain knowledge, but drastically hurts its prompting ability for
question answering. Taken inspiration from human learning via reading
comprehension--practice after reading improves the ability to answer questions
based on the learned knowledge--we propose a simple method for transforming raw
corpora into reading comprehension texts. Each raw text is enriched with a
series of tasks related to its content. Our method, highly scalable and
applicable to any pre-training corpora, consistently enhances performance
across various tasks in three different domains: biomedicine, finance, and law.
Notably, our 7B language model achieves competitive performance with
domain-specific models of much larger scales, such as BloombergGPT-50B.
Furthermore, we demonstrate that domain-specific reading comprehension texts
can improve the model's performance even on general benchmarks, showing the
potential to develop a general model across even more domains. Our model, code,
and data will be available at https://github.com/microsoft/LMOps.