MiniPLM: Дистилляция знаний для Предварительного Обучения Языковых Моделей
MiniPLM: Knowledge Distillation for Pre-Training Language Models
October 22, 2024
Авторы: Yuxian Gu, Hao Zhou, Fandong Meng, Jie Zhou, Minlie Huang
cs.AI
Аннотация
Дистилляция знаний (Knowledge Distillation, KD) широко используется для обучения небольших, высокопроизводительных языковых моделей (LM) студентов с использованием больших учителей LM. Хотя эффективна при настройке, дистилляция знаний во время предварительного обучения сталкивается с проблемами в эффективности, гибкости и эффективности. Существующие методы либо имеют высокие вычислительные затраты из-за онлайн-вывода учителя, требуют сопоставления токенизации между учителем и студентом LM, либо рискуют потерей сложности и разнообразия учебных данных, созданных учителем. Для решения этих проблем мы предлагаем MiniPLM, фреймворк дистилляции знаний для предварительного обучения LM путем улучшения распределения учебных данных с использованием знаний учителя. Для повышения эффективности MiniPLM выполняет офлайн-вывод учителя LM, позволяя дистиллировать знания для нескольких студенческих LM без дополнительных затрат времени обучения. Для обеспечения гибкости MiniPLM работает исключительно на корпусе обучения, позволяя дистиллировать знания между семействами моделей. Для повышения эффективности MiniPLM использует различия между большими и маленькими LM для улучшения сложности и разнообразия учебных данных, помогая студенческим LM приобрести разносторонние и сложные знания. Обширные эксперименты показывают, что MiniPLM повышает производительность студенческих LM на 9 широко используемых последующих задачах, улучшает возможности языкового моделирования и сокращает вычислительные затраты на предварительное обучение. Преимущества MiniPLM распространяются на большие масштабы предварительного обучения, что подтверждается экстраполяцией кривых масштабирования. Дополнительный анализ показывает, что MiniPLM поддерживает дистилляцию знаний между семействами моделей и улучшает использование учебных данных предварительного обучения. Наша модель, код и данные доступны по адресу https://github.com/thu-coai/MiniPLM.
English
Knowledge distillation (KD) is widely used to train small, high-performing
student language models (LMs) using large teacher LMs. While effective in
fine-tuning, KD during pre-training faces challenges in efficiency,
flexibility, and effectiveness. Existing methods either incur high
computational costs due to online teacher inference, require tokenization
matching between teacher and student LMs, or risk losing the difficulty and
diversity of the teacher-generated training data. To address these issues, we
propose MiniPLM, a KD framework for pre-training LMs by refining the training
data distribution with the teacher's knowledge. For efficiency, MiniPLM
performs offline teacher LM inference, allowing KD for multiple student LMs
without adding training-time costs. For flexibility, MiniPLM operates solely on
the training corpus, enabling KD across model families. For effectiveness,
MiniPLM leverages the differences between large and small LMs to enhance the
difficulty and diversity of the training data, helping student LMs acquire
versatile and sophisticated knowledge. Extensive experiments demonstrate that
MiniPLM boosts the student LMs' performance on 9 widely used downstream tasks,
improves the language modeling capabilities, and reduces pre-training
computation. The benefit of MiniPLM extends to large pre-training scales,
evidenced by the extrapolation of the scaling curves. Further analysis reveals
that MiniPLM supports KD across model families and enhances the utilization of
pre-training data. Our model, code, and data are available at
https://github.com/thu-coai/MiniPLM.Summary
AI-Generated Summary