Adaptación de Modelos de Lenguaje de Gran Escala mediante Comprensión de Lectura
Adapting Large Language Models via Reading Comprehension
September 18, 2023
Autores: Daixuan Cheng, Shaohan Huang, Furu Wei
cs.AI
Resumen
Exploramos cómo el preentrenamiento continuo en corpus específicos de dominio influye en los modelos de lenguaje grandes, revelando que el entrenamiento en los corpus sin procesar dota al modelo de conocimiento del dominio, pero perjudica drásticamente su capacidad de respuesta mediante indicaciones (prompting) para tareas de preguntas y respuestas. Inspirándonos en el aprendizaje humano a través de la comprensión lectora—donde la práctica después de la lectura mejora la capacidad de responder preguntas basadas en el conocimiento adquirido—proponemos un método simple para transformar corpus sin procesar en textos de comprensión lectora. Cada texto original se enriquece con una serie de tareas relacionadas con su contenido. Nuestro método, altamente escalable y aplicable a cualquier corpus de preentrenamiento, mejora consistentemente el rendimiento en diversas tareas en tres dominios diferentes: biomedicina, finanzas y derecho. Destacablemente, nuestro modelo de lenguaje de 7B logra un rendimiento competitivo con modelos específicos de dominio de escalas mucho mayores, como BloombergGPT-50B. Además, demostramos que los textos de comprensión lectora específicos de dominio pueden mejorar el rendimiento del modelo incluso en benchmarks generales, mostrando el potencial para desarrollar un modelo general en aún más dominios. Nuestro modelo, código y datos estarán disponibles en https://github.com/microsoft/LMOps.
English
We explore how continued pre-training on domain-specific corpora influences
large language models, revealing that training on the raw corpora endows the
model with domain knowledge, but drastically hurts its prompting ability for
question answering. Taken inspiration from human learning via reading
comprehension--practice after reading improves the ability to answer questions
based on the learned knowledge--we propose a simple method for transforming raw
corpora into reading comprehension texts. Each raw text is enriched with a
series of tasks related to its content. Our method, highly scalable and
applicable to any pre-training corpora, consistently enhances performance
across various tasks in three different domains: biomedicine, finance, and law.
Notably, our 7B language model achieves competitive performance with
domain-specific models of much larger scales, such as BloombergGPT-50B.
Furthermore, we demonstrate that domain-specific reading comprehension texts
can improve the model's performance even on general benchmarks, showing the
potential to develop a general model across even more domains. Our model, code,
and data will be available at https://github.com/microsoft/LMOps.