Adapter les grands modèles de langage via la compréhension de lecture
Adapting Large Language Models via Reading Comprehension
September 18, 2023
Auteurs: Daixuan Cheng, Shaohan Huang, Furu Wei
cs.AI
Résumé
Nous explorons comment le pré-entraînement continu sur des corpus spécifiques à un domaine influence les grands modèles de langage, révélant que l'entraînement sur les corpus bruts confère au modèle des connaissances du domaine, mais nuit considérablement à sa capacité de réponse par incitation (prompting) pour les questions-réponses. Inspirés par l'apprentissage humain via la compréhension de lecture—la pratique après la lecture améliore la capacité à répondre à des questions basées sur les connaissances acquises—nous proposons une méthode simple pour transformer les corpus bruts en textes de compréhension de lecture. Chaque texte brut est enrichi d'une série de tâches liées à son contenu. Notre méthode, hautement scalable et applicable à tout corpus de pré-entraînement, améliore systématiquement les performances sur diverses tâches dans trois domaines différents : biomédecine, finance et droit. Notamment, notre modèle de langage de 7B atteint des performances compétitives avec des modèles spécifiques à un domaine de tailles bien plus importantes, tels que BloombergGPT-50B. De plus, nous démontrons que les textes de compréhension de lecture spécifiques à un domaine peuvent améliorer les performances du modèle même sur des benchmarks généraux, montrant le potentiel de développer un modèle généralisable à encore plus de domaines. Notre modèle, code et données seront disponibles à l'adresse https://github.com/microsoft/LMOps.
English
We explore how continued pre-training on domain-specific corpora influences
large language models, revealing that training on the raw corpora endows the
model with domain knowledge, but drastically hurts its prompting ability for
question answering. Taken inspiration from human learning via reading
comprehension--practice after reading improves the ability to answer questions
based on the learned knowledge--we propose a simple method for transforming raw
corpora into reading comprehension texts. Each raw text is enriched with a
series of tasks related to its content. Our method, highly scalable and
applicable to any pre-training corpora, consistently enhances performance
across various tasks in three different domains: biomedicine, finance, and law.
Notably, our 7B language model achieves competitive performance with
domain-specific models of much larger scales, such as BloombergGPT-50B.
Furthermore, we demonstrate that domain-specific reading comprehension texts
can improve the model's performance even on general benchmarks, showing the
potential to develop a general model across even more domains. Our model, code,
and data will be available at https://github.com/microsoft/LMOps.