ChatPaper.aiChatPaper

Het overwinnen van vocabulaireonjuistheden: Vocabulaire-onafhankelijk docent-gestuurd taalmodeleren

Overcoming Vocabulary Mismatch: Vocabulary-agnostic Teacher Guided Language Modeling

March 24, 2025
Auteurs: Haebin Shin, Lei Ji, Xiao Liu, Yeyun Gong
cs.AI

Samenvatting

Het gebruik van grote leraarmodellen om de training van kleinere studentmodellen te begeleiden, is het heersende paradigma geworden voor efficiënt en effectief leren. Vocabulairmismatches tussen leraar- en studenttaalmodellen vormen echter aanzienlijke uitdagingen in taalmodellering, wat leidt tot uiteenlopende tokenreeksen en uitvoerverdelingen. Om deze beperkingen te overwinnen, stellen we Vocabulary-agnostic Teacher Guided Language Modeling (VocAgnoLM) voor, een nieuwe aanpak die de kloof veroorzaakt door vocabulairmismatch overbrugt via twee sleutelmethoden: (1) Token-level Lexical Alignment, dat tokenreeksen uitlijnt over mismatchende vocabulaires, en (2) Teacher Guided Loss, dat het verlies van het leraarmodel benut om effectieve studenttraining te begeleiden. We demonstreren de effectiviteit ervan in taalmodellering met een 1B studentmodel met behulp van verschillende 7B leraarmodellen met uiteenlopende vocabulaires. Opmerkelijk is dat met Qwen2.5-Math-Instruct, een leraarmodel dat slechts ongeveer 6% van zijn vocabulaire deelt met TinyLlama, VocAgnoLM een prestatieverbetering van 46% bereikt in vergelijking met naïeve voortgezette pretraining. Bovendien tonen we aan dat VocAgnoLM consistent profiteert van sterkere leraarmodellen, wat een robuuste oplossing biedt voor vocabulairmismatches in taalmodellering.
English
Using large teacher models to guide the training of smaller student models has become the prevailing paradigm for efficient and effective learning. However, vocabulary mismatches between teacher and student language models pose significant challenges in language modeling, resulting in divergent token sequences and output distributions. To overcome these limitations, we propose Vocabulary-agnostic Teacher Guided Language Modeling (VocAgnoLM), a novel approach that bridges the gap caused by vocabulary mismatch through two key methods: (1) Token-level Lexical Alignment, which aligns token sequences across mismatched vocabularies, and (2) Teacher Guided Loss, which leverages the loss of teacher model to guide effective student training. We demonstrate its effectiveness in language modeling with 1B student model using various 7B teacher models with different vocabularies. Notably, with Qwen2.5-Math-Instruct, a teacher model sharing only about 6% of its vocabulary with TinyLlama, VocAgnoLM achieves a 46% performance improvement compared to naive continual pretraining. Furthermore, we demonstrate that VocAgnoLM consistently benefits from stronger teacher models, providing a robust solution to vocabulary mismatches in language modeling.

Summary

AI-Generated Summary

PDF22March 26, 2025