ChatPaper.aiChatPaper

Surmonter l'inadéquation du vocabulaire : Modélisation du langage guidée par un enseignant indépendant du vocabulaire

Overcoming Vocabulary Mismatch: Vocabulary-agnostic Teacher Guided Language Modeling

March 24, 2025
Auteurs: Haebin Shin, Lei Ji, Xiao Liu, Yeyun Gong
cs.AI

Résumé

L'utilisation de grands modèles enseignants pour guider l'entraînement de modèles étudiants plus petits est devenue le paradigme dominant pour un apprentissage efficace et efficient. Cependant, les incompatibilités de vocabulaire entre les modèles de langage enseignants et étudiants posent des défis importants en modélisation du langage, entraînant des séquences de tokens et des distributions de sortie divergentes. Pour surmonter ces limitations, nous proposons la modélisation du langage guidée par enseignant agnostique au vocabulaire (VocAgnoLM), une approche novatrice qui comble le fossé causé par l'incompatibilité de vocabulaire grâce à deux méthodes clés : (1) l'alignement lexical au niveau des tokens, qui aligne les séquences de tokens entre des vocabulaires incompatibles, et (2) la perte guidée par l'enseignant, qui exploite la perte du modèle enseignant pour guider efficacement l'entraînement de l'étudiant. Nous démontrons son efficacité en modélisation du langage avec un modèle étudiant de 1 milliard de paramètres utilisant divers modèles enseignants de 7 milliards de paramètres avec des vocabulaires différents. Notamment, avec Qwen2.5-Math-Instruct, un modèle enseignant partageant seulement environ 6 % de son vocabulaire avec TinyLlama, VocAgnoLM obtient une amélioration de performance de 46 % par rapport à un pré-entraînement continu naïf. De plus, nous montrons que VocAgnoLM bénéficie systématiquement de modèles enseignants plus puissants, offrant ainsi une solution robuste aux incompatibilités de vocabulaire en modélisation du langage.
English
Using large teacher models to guide the training of smaller student models has become the prevailing paradigm for efficient and effective learning. However, vocabulary mismatches between teacher and student language models pose significant challenges in language modeling, resulting in divergent token sequences and output distributions. To overcome these limitations, we propose Vocabulary-agnostic Teacher Guided Language Modeling (VocAgnoLM), a novel approach that bridges the gap caused by vocabulary mismatch through two key methods: (1) Token-level Lexical Alignment, which aligns token sequences across mismatched vocabularies, and (2) Teacher Guided Loss, which leverages the loss of teacher model to guide effective student training. We demonstrate its effectiveness in language modeling with 1B student model using various 7B teacher models with different vocabularies. Notably, with Qwen2.5-Math-Instruct, a teacher model sharing only about 6% of its vocabulary with TinyLlama, VocAgnoLM achieves a 46% performance improvement compared to naive continual pretraining. Furthermore, we demonstrate that VocAgnoLM consistently benefits from stronger teacher models, providing a robust solution to vocabulary mismatches in language modeling.

Summary

AI-Generated Summary

PDF22March 26, 2025