Trapianto di Tokenizer Senza Addestramento tramite Ricerca Ortogonale a Corrispondenza
Training-Free Tokenizer Transplantation via Orthogonal Matching Pursuit
June 7, 2025
Autori: Charles Goddard, Fernando Fernandes Neto
cs.AI
Abstract
Presentiamo un metodo senza addestramento per trapiantare i tokenizer nei modelli linguistici preaddestrati di grandi dimensioni (LLM) ricostruendo gli embedding di token non visti tramite Orthogonal Matching Pursuit (OMP). Nello specifico, approssimiamo ogni token fuori dal vocabolario come una combinazione lineare sparsa di token condivisi, in due fasi: prima, calcoliamo la rappresentazione di ogni nuovo token nello spazio di embedding del donatore utilizzando un piccolo dizionario di token ancorati condivisi, poi trasferiamo questi stessi coefficienti sparsi nello spazio di embedding del modello base.
Su due impegnativi task cross-tokenizer—LlamatoMistral NeMo (12B) e QwentoLlama (1B)—dimostriamo che OMP ottiene la migliore conservazione zero-shot delle prestazioni del modello base su più benchmark, mentre altri approcci zero-shot si degradano significativamente. Rispetto ai baseline (zero-init, mean-init e approcci esistenti come WECHSEL, FOCUS, ZETT), OMP raggiunge costantemente le migliori prestazioni complessive, colmando efficacemente le grandi discrepanze tra tokenizer senza aggiornamenti del gradiente. La nostra analisi identifica inoltre gli schemi di tokenizzazione numerica non corrispondenti come una sfida critica per preservare le capacità di ragionamento matematico. Questa tecnica consente il riutilizzo diretto dei pesi preaddestrati del modello con nuovi tokenizer, facilitando la distillazione della conoscenza cross-tokenizer, il decoding speculativo, l'ensembling, il merging e gli adattamenti del vocabolario specifici per dominio. Integriamo il nostro metodo nello strumento open-source mergekit-tokensurgeon per il riallineamento post hoc del vocabolario.
English
We present a training-free method to transplant tokenizers in pretrained
large language models (LLMs) by reconstructing unseen token embeddings via
Orthogonal Matching Pursuit (OMP). Specifically, we approximate each
out-of-vocabulary token as a sparse linear combination of shared tokens, in two
phases: first, compute each new token's representation in the donor embedding
space with a small dictionary of shared anchor tokens, then transfer these same
sparse coefficients back into the base model's embedding space.
On two challenging cross-tokenizer tasks--LlamatoMistral NeMo (12B) and
QwentoLlama (1B)--we show that OMP achieves best zero-shot preservation of
the base model's performance across multiple benchmarks, while other zero-shot
approaches degrade significantly. Compared to baselines (zero-init, mean-init,
and existing approaches like WECHSEL, FOCUS, ZETT), OMP consistently achieves
the best overall performance, effectively bridging large tokenizer
discrepancies without gradient updates. Our analysis further identifies
mismatched numerical tokenization schemes as a critical challenge for
preserving mathematical reasoning capabilities. This technique enables direct
reuse of pretrained model weights with new tokenizers, facilitating
cross-tokenizer knowledge distillation, speculative decoding, ensembling,
merging, and domain-specific vocabulary adaptations. We integrate our method
into the open-source mergekit-tokensurgeon tool for post hoc vocabulary
realignment.