Anpassung großer Sprachmodelle durch Leseverständnis
Adapting Large Language Models via Reading Comprehension
September 18, 2023
Autoren: Daixuan Cheng, Shaohan Huang, Furu Wei
cs.AI
Zusammenfassung
Wir untersuchen, wie fortgesetztes Pre-Training auf domänenspezifischen Korpora große Sprachmodelle beeinflusst, und zeigen, dass das Training auf den Rohkorpora dem Modell Domänenwissen vermittelt, aber dessen Fähigkeit zur Beantwortung von Fragen durch Prompting drastisch beeinträchtigt. Inspiriert vom menschlichen Lernen durch Leseverständnis – Übungen nach dem Lesen verbessern die Fähigkeit, Fragen basierend auf dem erlernten Wissen zu beantworten – schlagen wir eine einfache Methode vor, um Rohkorpora in Leseverständnistexte umzuwandeln. Jeder Rohtext wird mit einer Reihe von Aufgaben angereichert, die sich auf seinen Inhalt beziehen. Unsere Methode, die hochskalierbar und auf jedes Pre-Training-Korpus anwendbar ist, verbessert durchgängig die Leistung bei verschiedenen Aufgaben in drei unterschiedlichen Domänen: Biomedizin, Finanzen und Recht. Bemerkenswerterweise erreicht unser 7B-Sprachmodell eine wettbewerbsfähige Leistung im Vergleich zu domänenspezifischen Modellen mit viel größerem Umfang, wie beispielsweise BloombergGPT-50B. Darüber hinaus zeigen wir, dass domänenspezifische Leseverständnistexte die Leistung des Modells sogar auf allgemeinen Benchmarks verbessern können, was das Potenzial aufzeigt, ein allgemeines Modell über noch mehr Domänen hinweg zu entwickeln. Unser Modell, Code und Daten werden unter https://github.com/microsoft/LMOps verfügbar sein.
English
We explore how continued pre-training on domain-specific corpora influences
large language models, revealing that training on the raw corpora endows the
model with domain knowledge, but drastically hurts its prompting ability for
question answering. Taken inspiration from human learning via reading
comprehension--practice after reading improves the ability to answer questions
based on the learned knowledge--we propose a simple method for transforming raw
corpora into reading comprehension texts. Each raw text is enriched with a
series of tasks related to its content. Our method, highly scalable and
applicable to any pre-training corpora, consistently enhances performance
across various tasks in three different domains: biomedicine, finance, and law.
Notably, our 7B language model achieves competitive performance with
domain-specific models of much larger scales, such as BloombergGPT-50B.
Furthermore, we demonstrate that domain-specific reading comprehension texts
can improve the model's performance even on general benchmarks, showing the
potential to develop a general model across even more domains. Our model, code,
and data will be available at https://github.com/microsoft/LMOps.