Trainingsvrije Tokenizer-transplantatie via Orthogonaal Matching Pursuit
Training-Free Tokenizer Transplantation via Orthogonal Matching Pursuit
June 7, 2025
Auteurs: Charles Goddard, Fernando Fernandes Neto
cs.AI
Samenvatting
We presenteren een trainingsvrije methode om tokenizers in vooraf getrainde grote taalmmodellen (LLMs) te transplanteren door onbekende token-embeddings te reconstrueren via Orthogonal Matching Pursuit (OMP). Specifiek benaderen we elk out-of-vocabulary token als een spaarse lineaire combinatie van gedeelde tokens, in twee fasen: eerst berekenen we de representatie van elk nieuw token in de donor-embeddingruimte met een kleine woordenlijst van gedeelde anker-tokens, en vervolgens transfereren we dezezelfde spaarse coëfficiënten terug naar de embeddingruimte van het basismodel.
Op twee uitdagende cross-tokenizer taken—LlamatoMistral NeMo (12B) en QwentoLlama (1B)—laten we zien dat OMP de beste zero-shot behoud van de prestaties van het basismodel bereikt over meerdere benchmarks, terwijl andere zero-shot benaderingen significant verslechteren. Vergeleken met baseline-methoden (zero-init, mean-init, en bestaande benaderingen zoals WECHSEL, FOCUS, ZETT), behaalt OMP consistent de beste algehele prestaties en overbrugt het effectief grote tokenizer-verschillen zonder gradient-updates. Onze analyse identificeert verder mismatched numerieke tokenisatieschema's als een kritieke uitdaging voor het behoud van wiskundige redeneervaardigheden. Deze techniek maakt direct hergebruik van vooraf getrainde modelgewichten met nieuwe tokenizers mogelijk, wat cross-tokenizer kennisdistillatie, speculatieve decodering, ensembling, samenvoeging en domeinspecifieke vocabulaire-aanpassingen vergemakkelijkt. We integreren onze methode in het open-source mergekit-tokensurgeon tool voor post hoc vocabulaire-heruitlijning.
English
We present a training-free method to transplant tokenizers in pretrained
large language models (LLMs) by reconstructing unseen token embeddings via
Orthogonal Matching Pursuit (OMP). Specifically, we approximate each
out-of-vocabulary token as a sparse linear combination of shared tokens, in two
phases: first, compute each new token's representation in the donor embedding
space with a small dictionary of shared anchor tokens, then transfer these same
sparse coefficients back into the base model's embedding space.
On two challenging cross-tokenizer tasks--LlamatoMistral NeMo (12B) and
QwentoLlama (1B)--we show that OMP achieves best zero-shot preservation of
the base model's performance across multiple benchmarks, while other zero-shot
approaches degrade significantly. Compared to baselines (zero-init, mean-init,
and existing approaches like WECHSEL, FOCUS, ZETT), OMP consistently achieves
the best overall performance, effectively bridging large tokenizer
discrepancies without gradient updates. Our analysis further identifies
mismatched numerical tokenization schemes as a critical challenge for
preserving mathematical reasoning capabilities. This technique enables direct
reuse of pretrained model weights with new tokenizers, facilitating
cross-tokenizer knowledge distillation, speculative decoding, ensembling,
merging, and domain-specific vocabulary adaptations. We integrate our method
into the open-source mergekit-tokensurgeon tool for post hoc vocabulary
realignment.