ChatPaper.aiChatPaper

Преодоление несоответствия словарного запаса: Моделирование языка с использованием словарно-независимого учителя

Overcoming Vocabulary Mismatch: Vocabulary-agnostic Teacher Guided Language Modeling

March 24, 2025
Авторы: Haebin Shin, Lei Ji, Xiao Liu, Yeyun Gong
cs.AI

Аннотация

Использование крупных моделей-учителей для обучения более компактных моделей-учеников стало преобладающей парадигмой для эффективного и результативного обучения. Однако несоответствия в словарях между моделями языка учителя и ученика создают значительные трудности в моделировании языка, приводя к расходящимся последовательностям токенов и распределениям выходных данных. Чтобы преодолеть эти ограничения, мы предлагаем Vocabulary-agnostic Teacher Guided Language Modeling (VocAgnoLM) — новый подход, который устраняет разрыв, вызванный несоответствием словарей, с помощью двух ключевых методов: (1) Лексическое выравнивание на уровне токенов, которое согласовывает последовательности токенов в несовпадающих словарях, и (2) Потеря с учетом учителя, которая использует потери модели-учителя для эффективного обучения модели-ученика. Мы демонстрируем эффективность этого подхода в моделировании языка на примере модели-ученика с 1 миллиардом параметров, обученной с использованием различных моделей-учителей с 7 миллиардами параметров и разными словарями. Примечательно, что с моделью Qwen2.5-Math-Instruct, словарь которой совпадает с TinyLlama лишь на 6%, VocAgnoLM достигает улучшения производительности на 46% по сравнению с наивным продолжением предобучения. Кроме того, мы показываем, что VocAgnoLM стабильно выигрывает от использования более мощных моделей-учителей, предлагая надежное решение проблемы несоответствия словарей в моделировании языка.
English
Using large teacher models to guide the training of smaller student models has become the prevailing paradigm for efficient and effective learning. However, vocabulary mismatches between teacher and student language models pose significant challenges in language modeling, resulting in divergent token sequences and output distributions. To overcome these limitations, we propose Vocabulary-agnostic Teacher Guided Language Modeling (VocAgnoLM), a novel approach that bridges the gap caused by vocabulary mismatch through two key methods: (1) Token-level Lexical Alignment, which aligns token sequences across mismatched vocabularies, and (2) Teacher Guided Loss, which leverages the loss of teacher model to guide effective student training. We demonstrate its effectiveness in language modeling with 1B student model using various 7B teacher models with different vocabularies. Notably, with Qwen2.5-Math-Instruct, a teacher model sharing only about 6% of its vocabulary with TinyLlama, VocAgnoLM achieves a 46% performance improvement compared to naive continual pretraining. Furthermore, we demonstrate that VocAgnoLM consistently benefits from stronger teacher models, providing a robust solution to vocabulary mismatches in language modeling.

Summary

AI-Generated Summary

PDF22March 26, 2025