Transplantation de tokeniseur sans entraînement via la poursuite orthogonale de correspondance
Training-Free Tokenizer Transplantation via Orthogonal Matching Pursuit
June 7, 2025
Auteurs: Charles Goddard, Fernando Fernandes Neto
cs.AI
Résumé
Nous présentons une méthode sans entraînement pour transplanter des tokenizers dans des grands modèles de langage (LLMs) préentraînés en reconstruisant les embeddings de tokens inconnus via la Poursuite Orthogonale par Correspondance (Orthogonal Matching Pursuit, OMP). Plus précisément, nous approximons chaque token hors vocabulaire comme une combinaison linéaire parcimonieuse de tokens partagés, en deux phases : d'abord, nous calculons la représentation de chaque nouveau token dans l'espace d'embedding du modèle donneur à l'aide d'un petit dictionnaire de tokens ancres partagés, puis nous transférons ces mêmes coefficients parcimonieux dans l'espace d'embedding du modèle de base.
Sur deux tâches inter-tokenizers complexes—LlamatoMistral NeMo (12B) et QwentoLlama (1B)—nous montrons que l'OMP obtient la meilleure préservation zéro-shot des performances du modèle de base sur plusieurs benchmarks, tandis que d'autres approches zéro-shot se dégradent significativement. Par rapport aux méthodes de référence (initialisation zéro, initialisation par la moyenne, et approches existantes comme WECHSEL, FOCUS, ZETT), l'OMP atteint systématiquement les meilleures performances globales, comblant efficacement les écarts importants entre tokenizers sans mise à jour des gradients. Notre analyse identifie en outre les schémas de tokenisation numérique incompatibles comme un défi critique pour préserver les capacités de raisonnement mathématique.
Cette technique permet la réutilisation directe des poids de modèles préentraînés avec de nouveaux tokenizers, facilitant la distillation de connaissances inter-tokenizers, le décodage spéculatif, l'assemblage, la fusion et les adaptations de vocabulaire spécifiques à un domaine. Nous intégrons notre méthode dans l'outil open-source mergekit-tokensurgeon pour un réalignement post hoc du vocabulaire.
English
We present a training-free method to transplant tokenizers in pretrained
large language models (LLMs) by reconstructing unseen token embeddings via
Orthogonal Matching Pursuit (OMP). Specifically, we approximate each
out-of-vocabulary token as a sparse linear combination of shared tokens, in two
phases: first, compute each new token's representation in the donor embedding
space with a small dictionary of shared anchor tokens, then transfer these same
sparse coefficients back into the base model's embedding space.
On two challenging cross-tokenizer tasks--LlamatoMistral NeMo (12B) and
QwentoLlama (1B)--we show that OMP achieves best zero-shot preservation of
the base model's performance across multiple benchmarks, while other zero-shot
approaches degrade significantly. Compared to baselines (zero-init, mean-init,
and existing approaches like WECHSEL, FOCUS, ZETT), OMP consistently achieves
the best overall performance, effectively bridging large tokenizer
discrepancies without gradient updates. Our analysis further identifies
mismatched numerical tokenization schemes as a critical challenge for
preserving mathematical reasoning capabilities. This technique enables direct
reuse of pretrained model weights with new tokenizers, facilitating
cross-tokenizer knowledge distillation, speculative decoding, ensembling,
merging, and domain-specific vocabulary adaptations. We integrate our method
into the open-source mergekit-tokensurgeon tool for post hoc vocabulary
realignment.