語彙の不一致を克服する:語彙に依存しない教師指導型言語モデリング
Overcoming Vocabulary Mismatch: Vocabulary-agnostic Teacher Guided Language Modeling
March 24, 2025
著者: Haebin Shin, Lei Ji, Xiao Liu, Yeyun Gong
cs.AI
要旨
大規模な教師モデルを用いて小規模な学生モデルの訓練を導くことは、効率的かつ効果的な学習のための主流のパラダイムとなっています。しかし、教師モデルと学生モデルの言語モデル間の語彙の不一致は、言語モデリングにおいて重大な課題を引き起こし、異なるトークンシーケンスと出力分布をもたらします。これらの制限を克服するため、我々は語彙に依存しない教師誘導型言語モデリング(VocAgnoLM)を提案します。この新しいアプローチは、語彙の不一致によるギャップを2つの主要な手法で橋渡しします:(1) トークンレベルの語彙アラインメント、これは不一致した語彙間でトークンシーケンスを整合させ、(2) 教師誘導型損失、これは教師モデルの損失を活用して効果的な学生モデルの訓練を導きます。我々は、異なる語彙を持つ様々な7B教師モデルを用いて1B学生モデルでの言語モデリングにおけるその有効性を実証します。特に、TinyLlamaと約6%の語彙しか共有しない教師モデルであるQwen2.5-Math-Instructを用いて、VocAgnoLMは単純な継続事前学習と比較して46%の性能向上を達成します。さらに、VocAgnoLMがより強力な教師モデルから一貫して利益を得ることを示し、言語モデリングにおける語彙の不一致に対する堅牢なソリューションを提供します。
English
Using large teacher models to guide the training of smaller student models
has become the prevailing paradigm for efficient and effective learning.
However, vocabulary mismatches between teacher and student language models pose
significant challenges in language modeling, resulting in divergent token
sequences and output distributions. To overcome these limitations, we propose
Vocabulary-agnostic Teacher Guided Language Modeling (VocAgnoLM), a novel
approach that bridges the gap caused by vocabulary mismatch through two key
methods: (1) Token-level Lexical Alignment, which aligns token sequences across
mismatched vocabularies, and (2) Teacher Guided Loss, which leverages the loss
of teacher model to guide effective student training. We demonstrate its
effectiveness in language modeling with 1B student model using various 7B
teacher models with different vocabularies. Notably, with
Qwen2.5-Math-Instruct, a teacher model sharing only about 6% of its vocabulary
with TinyLlama, VocAgnoLM achieves a 46% performance improvement compared to
naive continual pretraining. Furthermore, we demonstrate that VocAgnoLM
consistently benefits from stronger teacher models, providing a robust solution
to vocabulary mismatches in language modeling.Summary
AI-Generated Summary