Surmonter l'inadéquation du vocabulaire : Modélisation du langage guidée par un enseignant indépendant du vocabulaire
Overcoming Vocabulary Mismatch: Vocabulary-agnostic Teacher Guided Language Modeling
March 24, 2025
Auteurs: Haebin Shin, Lei Ji, Xiao Liu, Yeyun Gong
cs.AI
Résumé
L'utilisation de grands modèles enseignants pour guider l'entraînement de modèles étudiants plus petits est devenue le paradigme dominant pour un apprentissage efficace et efficient. Cependant, les incompatibilités de vocabulaire entre les modèles de langage enseignants et étudiants posent des défis importants en modélisation du langage, entraînant des séquences de tokens et des distributions de sortie divergentes. Pour surmonter ces limitations, nous proposons la modélisation du langage guidée par enseignant agnostique au vocabulaire (VocAgnoLM), une approche novatrice qui comble le fossé causé par l'incompatibilité de vocabulaire grâce à deux méthodes clés : (1) l'alignement lexical au niveau des tokens, qui aligne les séquences de tokens entre des vocabulaires incompatibles, et (2) la perte guidée par l'enseignant, qui exploite la perte du modèle enseignant pour guider efficacement l'entraînement de l'étudiant. Nous démontrons son efficacité en modélisation du langage avec un modèle étudiant de 1 milliard de paramètres utilisant divers modèles enseignants de 7 milliards de paramètres avec des vocabulaires différents. Notamment, avec Qwen2.5-Math-Instruct, un modèle enseignant partageant seulement environ 6 % de son vocabulaire avec TinyLlama, VocAgnoLM obtient une amélioration de performance de 46 % par rapport à un pré-entraînement continu naïf. De plus, nous montrons que VocAgnoLM bénéficie systématiquement de modèles enseignants plus puissants, offrant ainsi une solution robuste aux incompatibilités de vocabulaire en modélisation du langage.
English
Using large teacher models to guide the training of smaller student models
has become the prevailing paradigm for efficient and effective learning.
However, vocabulary mismatches between teacher and student language models pose
significant challenges in language modeling, resulting in divergent token
sequences and output distributions. To overcome these limitations, we propose
Vocabulary-agnostic Teacher Guided Language Modeling (VocAgnoLM), a novel
approach that bridges the gap caused by vocabulary mismatch through two key
methods: (1) Token-level Lexical Alignment, which aligns token sequences across
mismatched vocabularies, and (2) Teacher Guided Loss, which leverages the loss
of teacher model to guide effective student training. We demonstrate its
effectiveness in language modeling with 1B student model using various 7B
teacher models with different vocabularies. Notably, with
Qwen2.5-Math-Instruct, a teacher model sharing only about 6% of its vocabulary
with TinyLlama, VocAgnoLM achieves a 46% performance improvement compared to
naive continual pretraining. Furthermore, we demonstrate that VocAgnoLM
consistently benefits from stronger teacher models, providing a robust solution
to vocabulary mismatches in language modeling.Summary
AI-Generated Summary