MiniPLM: Distillazione della Conoscenza per il Pre-Addestramento dei Modelli Linguistici
MiniPLM: Knowledge Distillation for Pre-Training Language Models
October 22, 2024
Autori: Yuxian Gu, Hao Zhou, Fandong Meng, Jie Zhou, Minlie Huang
cs.AI
Abstract
La distillazione della conoscenza (KD) è ampiamente utilizzata per addestrare modelli linguistici (LM) studenti di dimensioni ridotte e ad alte prestazioni utilizzando grandi LM docenti. Sebbene efficace nel fine-tuning, la KD durante la preformazione affronta sfide legate all'efficienza, alla flessibilità e all'efficacia. I metodi esistenti comportano costi computazionali elevati a causa dell'inferenza online del docente, richiedono il matching della tokenizzazione tra LM docente e studente o rischiano di perdere la complessità e la diversità dei dati di addestramento generati dal docente. Per affrontare questi problemi, proponiamo MiniPLM, un framework di KD per la preformazione di LM che affina la distribuzione dei dati di addestramento con la conoscenza del docente. Per l'efficienza, MiniPLM esegue l'inferenza offline del LM docente, consentendo la KD per più LM studenti senza aggiungere costi temporali di addestramento. Per la flessibilità, MiniPLM opera esclusivamente sul corpus di addestramento, consentendo la KD tra famiglie di modelli. Per l'efficacia, MiniPLM sfrutta le differenze tra LM grandi e piccoli per migliorare la complessità e la diversità dei dati di addestramento, aiutando gli LM studenti ad acquisire conoscenze versatili e sofisticate. Esperimenti estesi dimostrano che MiniPLM potenzia le prestazioni degli LM studenti su 9 compiti downstream ampiamente utilizzati, migliora le capacità di modellizzazione del linguaggio e riduce il calcolo della preformazione. Il beneficio di MiniPLM si estende a grandi scale di preformazione, come evidenziato dall'interpolazione delle curve di scalabilità. Ulteriori analisi rivelano che MiniPLM supporta la KD tra famiglie di modelli e migliora l'utilizzo dei dati di preformazione. Il nostro modello, codice e dati sono disponibili su https://github.com/thu-coai/MiniPLM.
English
Knowledge distillation (KD) is widely used to train small, high-performing
student language models (LMs) using large teacher LMs. While effective in
fine-tuning, KD during pre-training faces challenges in efficiency,
flexibility, and effectiveness. Existing methods either incur high
computational costs due to online teacher inference, require tokenization
matching between teacher and student LMs, or risk losing the difficulty and
diversity of the teacher-generated training data. To address these issues, we
propose MiniPLM, a KD framework for pre-training LMs by refining the training
data distribution with the teacher's knowledge. For efficiency, MiniPLM
performs offline teacher LM inference, allowing KD for multiple student LMs
without adding training-time costs. For flexibility, MiniPLM operates solely on
the training corpus, enabling KD across model families. For effectiveness,
MiniPLM leverages the differences between large and small LMs to enhance the
difficulty and diversity of the training data, helping student LMs acquire
versatile and sophisticated knowledge. Extensive experiments demonstrate that
MiniPLM boosts the student LMs' performance on 9 widely used downstream tasks,
improves the language modeling capabilities, and reduces pre-training
computation. The benefit of MiniPLM extends to large pre-training scales,
evidenced by the extrapolation of the scaling curves. Further analysis reveals
that MiniPLM supports KD across model families and enhances the utilization of
pre-training data. Our model, code, and data are available at
https://github.com/thu-coai/MiniPLM.Summary
AI-Generated Summary