Адаптация крупных языковых моделей через понимание прочитанного
Adapting Large Language Models via Reading Comprehension
September 18, 2023
Авторы: Daixuan Cheng, Shaohan Huang, Furu Wei
cs.AI
Аннотация
Мы исследуем, как дополнительное предварительное обучение на корпусах, специфичных для предметной области, влияет на большие языковые модели. Результаты показывают, что обучение на сырых корпусах наделяет модель знаниями в данной области, но значительно ухудшает её способность отвечать на вопросы при использовании промптов. Вдохновившись процессом человеческого обучения через чтение и понимание текста — практика после чтения улучшает способность отвечать на вопросы на основе усвоенных знаний — мы предлагаем простой метод преобразования сырых корпусов в тексты для чтения с заданиями на понимание. Каждый исходный текст дополняется серией задач, связанных с его содержанием. Наш метод, обладающий высокой масштабируемостью и применимый к любым корпусам для предварительного обучения, последовательно улучшает производительность в различных задачах в трёх разных областях: биомедицине, финансах и праве. Примечательно, что наша языковая модель с 7 миллиардами параметров демонстрирует конкурентоспособные результаты по сравнению с моделями, специфичными для предметной области, но значительно большего масштаба, такими как BloombergGPT-50B. Кроме того, мы показываем, что тексты для чтения с заданиями на понимание, специфичные для предметной области, могут улучшить производительность модели даже на общих тестах, что указывает на потенциал разработки универсальной модели, применимой к ещё большему числу областей. Наша модель, код и данные будут доступны по адресу https://github.com/microsoft/LMOps.
English
We explore how continued pre-training on domain-specific corpora influences
large language models, revealing that training on the raw corpora endows the
model with domain knowledge, but drastically hurts its prompting ability for
question answering. Taken inspiration from human learning via reading
comprehension--practice after reading improves the ability to answer questions
based on the learned knowledge--we propose a simple method for transforming raw
corpora into reading comprehension texts. Each raw text is enriched with a
series of tasks related to its content. Our method, highly scalable and
applicable to any pre-training corpora, consistently enhances performance
across various tasks in three different domains: biomedicine, finance, and law.
Notably, our 7B language model achieves competitive performance with
domain-specific models of much larger scales, such as BloombergGPT-50B.
Furthermore, we demonstrate that domain-specific reading comprehension texts
can improve the model's performance even on general benchmarks, showing the
potential to develop a general model across even more domains. Our model, code,
and data will be available at https://github.com/microsoft/LMOps.