Superando o Descompasso de Vocabulário: Modelagem de Linguagem Orientada por Professor Independente de Vocabulário
Overcoming Vocabulary Mismatch: Vocabulary-agnostic Teacher Guided Language Modeling
March 24, 2025
Autores: Haebin Shin, Lei Ji, Xiao Liu, Yeyun Gong
cs.AI
Resumo
O uso de grandes modelos professores para orientar o treinamento de modelos estudantes menores tornou-se o paradigma predominante para um aprendizado eficiente e eficaz. No entanto, incompatibilidades de vocabulário entre modelos de linguagem professores e estudantes apresentam desafios significativos na modelagem de linguagem, resultando em sequências de tokens e distribuições de saída divergentes. Para superar essas limitações, propomos o **Modelo de Linguagem Orientado por Professor Agnóstico ao Vocabulário (VocAgnoLM)**, uma abordagem inovadora que preenche a lacuna causada pela incompatibilidade de vocabulário por meio de dois métodos principais: (1) **Alinhamento Léxico em Nível de Token**, que alinha sequências de tokens em vocabulários incompatíveis, e (2) **Perda Orientada pelo Professor**, que utiliza a perda do modelo professor para guiar o treinamento eficaz do estudante. Demonstramos sua eficácia na modelagem de linguagem com um modelo estudante de 1B usando diversos modelos professores de 7B com vocabulários diferentes. Notavelmente, com o **Qwen2.5-Math-Instruct**, um modelo professor que compartilha apenas cerca de 6% de seu vocabulário com o **TinyLlama**, o VocAgnoLM alcança uma melhoria de desempenho de 46% em comparação com o pré-treinamento contínuo ingênuo. Além disso, mostramos que o VocAgnoLM se beneficia consistentemente de modelos professores mais fortes, oferecendo uma solução robusta para incompatibilidades de vocabulário na modelagem de linguagem.
English
Using large teacher models to guide the training of smaller student models
has become the prevailing paradigm for efficient and effective learning.
However, vocabulary mismatches between teacher and student language models pose
significant challenges in language modeling, resulting in divergent token
sequences and output distributions. To overcome these limitations, we propose
Vocabulary-agnostic Teacher Guided Language Modeling (VocAgnoLM), a novel
approach that bridges the gap caused by vocabulary mismatch through two key
methods: (1) Token-level Lexical Alignment, which aligns token sequences across
mismatched vocabularies, and (2) Teacher Guided Loss, which leverages the loss
of teacher model to guide effective student training. We demonstrate its
effectiveness in language modeling with 1B student model using various 7B
teacher models with different vocabularies. Notably, with
Qwen2.5-Math-Instruct, a teacher model sharing only about 6% of its vocabulary
with TinyLlama, VocAgnoLM achieves a 46% performance improvement compared to
naive continual pretraining. Furthermore, we demonstrate that VocAgnoLM
consistently benefits from stronger teacher models, providing a robust solution
to vocabulary mismatches in language modeling.Summary
AI-Generated Summary