Trainingsfreie Tokenizer-Transplantation durch Orthogonal Matching Pursuit
Training-Free Tokenizer Transplantation via Orthogonal Matching Pursuit
June 7, 2025
Autoren: Charles Goddard, Fernando Fernandes Neto
cs.AI
Zusammenfassung
Wir stellen eine trainingsfreie Methode vor, um Tokenizer in vortrainierten großen Sprachmodellen (LLMs) zu transplantieren, indem nicht gesehene Token-Einbettungen mittels Orthogonal Matching Pursuit (OMP) rekonstruiert werden. Konkret approximieren wir jeden Out-of-Vocabulary-Token als eine spärliche lineare Kombination von gemeinsamen Tokens in zwei Phasen: Zuerst berechnen wir die Repräsentation jedes neuen Tokens im Einbettungsraum des Spender-Modells mit einem kleinen Wörterbuch von gemeinsamen Anker-Tokens, dann übertragen wir dieselben spärlichen Koeffizienten zurück in den Einbettungsraum des Basismodells.
Bei zwei anspruchsvollen Cross-Tokenizer-Aufgaben – LlamatoMistral NeMo (12B) und QwentoLlama (1B) – zeigen wir, dass OMP die beste Zero-Shot-Erhaltung der Leistung des Basismodells über mehrere Benchmarks hinweg erreicht, während andere Zero-Shot-Ansätze signifikant schlechter abschneiden. Im Vergleich zu Baselines (Zero-Init, Mean-Init und bestehenden Ansätzen wie WECHSEL, FOCUS, ZETT) erzielt OMP durchweg die beste Gesamtleistung und überbrückt effektiv große Tokenizer-Diskrepanzen ohne Gradienten-Updates. Unsere Analyse identifiziert weiterhin nicht übereinstimmende numerische Tokenisierungsschemata als eine kritische Herausforderung für die Erhaltung mathematischer Fähigkeiten. Diese Technik ermöglicht die direkte Wiederverwendung vortrainierter Modellgewichte mit neuen Tokenizern und erleichtert Cross-Tokenizer-Wissensdistillation, spekulative Dekodierung, Ensembling, Merging und domänenspezifische Vokabularanpassungen. Wir integrieren unsere Methode in das Open-Source-Tool mergekit-tokensurgeon zur nachträglichen Vokabular-Neuausrichtung.
English
We present a training-free method to transplant tokenizers in pretrained
large language models (LLMs) by reconstructing unseen token embeddings via
Orthogonal Matching Pursuit (OMP). Specifically, we approximate each
out-of-vocabulary token as a sparse linear combination of shared tokens, in two
phases: first, compute each new token's representation in the donor embedding
space with a small dictionary of shared anchor tokens, then transfer these same
sparse coefficients back into the base model's embedding space.
On two challenging cross-tokenizer tasks--LlamatoMistral NeMo (12B) and
QwentoLlama (1B)--we show that OMP achieves best zero-shot preservation of
the base model's performance across multiple benchmarks, while other zero-shot
approaches degrade significantly. Compared to baselines (zero-init, mean-init,
and existing approaches like WECHSEL, FOCUS, ZETT), OMP consistently achieves
the best overall performance, effectively bridging large tokenizer
discrepancies without gradient updates. Our analysis further identifies
mismatched numerical tokenization schemes as a critical challenge for
preserving mathematical reasoning capabilities. This technique enables direct
reuse of pretrained model weights with new tokenizers, facilitating
cross-tokenizer knowledge distillation, speculative decoding, ensembling,
merging, and domain-specific vocabulary adaptations. We integrate our method
into the open-source mergekit-tokensurgeon tool for post hoc vocabulary
realignment.