Superando el desajuste de vocabulario: Modelado de lenguaje guiado por profesor independiente del vocabulario
Overcoming Vocabulary Mismatch: Vocabulary-agnostic Teacher Guided Language Modeling
March 24, 2025
Autores: Haebin Shin, Lei Ji, Xiao Liu, Yeyun Gong
cs.AI
Resumen
El uso de modelos docentes grandes para guiar el entrenamiento de modelos estudiantiles más pequeños se ha convertido en el paradigma predominante para un aprendizaje eficiente y efectivo. Sin embargo, los desajustes de vocabulario entre los modelos de lenguaje del docente y el estudiante plantean desafíos significativos en el modelado del lenguaje, lo que resulta en secuencias de tokens y distribuciones de salida divergentes. Para superar estas limitaciones, proponemos el Modelado de Lenguaje Guiado por Docente Agnóstico al Vocabulario (VocAgnoLM), un enfoque novedoso que cierra la brecha causada por el desajuste de vocabulario mediante dos métodos clave: (1) Alineación Léxica a Nivel de Token, que alinea las secuencias de tokens en vocabularios desajustados, y (2) Pérdida Guiada por el Docente, que aprovecha la pérdida del modelo docente para guiar un entrenamiento efectivo del estudiante. Demostramos su efectividad en el modelado del lenguaje con un modelo estudiantil de 1B utilizando varios modelos docentes de 7B con diferentes vocabularios. Notablemente, con Qwen2.5-Math-Instruct, un modelo docente que comparte solo alrededor del 6% de su vocabulario con TinyLlama, VocAgnoLM logra una mejora del 46% en el rendimiento en comparación con el preentrenamiento continuo ingenuo. Además, demostramos que VocAgnoLM se beneficia consistentemente de modelos docentes más fuertes, proporcionando una solución robusta a los desajustes de vocabulario en el modelado del lenguaje.
English
Using large teacher models to guide the training of smaller student models
has become the prevailing paradigm for efficient and effective learning.
However, vocabulary mismatches between teacher and student language models pose
significant challenges in language modeling, resulting in divergent token
sequences and output distributions. To overcome these limitations, we propose
Vocabulary-agnostic Teacher Guided Language Modeling (VocAgnoLM), a novel
approach that bridges the gap caused by vocabulary mismatch through two key
methods: (1) Token-level Lexical Alignment, which aligns token sequences across
mismatched vocabularies, and (2) Teacher Guided Loss, which leverages the loss
of teacher model to guide effective student training. We demonstrate its
effectiveness in language modeling with 1B student model using various 7B
teacher models with different vocabularies. Notably, with
Qwen2.5-Math-Instruct, a teacher model sharing only about 6% of its vocabulary
with TinyLlama, VocAgnoLM achieves a 46% performance improvement compared to
naive continual pretraining. Furthermore, we demonstrate that VocAgnoLM
consistently benefits from stronger teacher models, providing a robust solution
to vocabulary mismatches in language modeling.Summary
AI-Generated Summary