Transplante de Tokenizador Livre de Treinamento via Busca Ortogonal de Correspondência
Training-Free Tokenizer Transplantation via Orthogonal Matching Pursuit
June 7, 2025
Autores: Charles Goddard, Fernando Fernandes Neto
cs.AI
Resumo
Apresentamos um método livre de treinamento para transplantar tokenizadores em modelos de linguagem grandes (LLMs) pré-treinados, reconstruindo embeddings de tokens não vistos por meio de Busca Ortogonal de Correspondência (Orthogonal Matching Pursuit - OMP). Especificamente, aproximamos cada token fora do vocabulário como uma combinação linear esparsa de tokens compartilhados, em duas fases: primeiro, calculamos a representação de cada novo token no espaço de embeddings do doador com um pequeno dicionário de tokens âncora compartilhados, depois transferimos esses mesmos coeficientes esparsos de volta para o espaço de embeddings do modelo base.
Em duas tarefas desafiadoras de cross-tokenizer—LlamatoMistral NeMo (12B) e QwentoLlama (1B)—mostramos que o OMP alcança a melhor preservação zero-shot do desempenho do modelo base em múltiplos benchmarks, enquanto outras abordagens zero-shot degradam significativamente. Comparado às baselines (zero-init, mean-init e abordagens existentes como WECHSEL, FOCUS, ZETT), o OMP consistentemente alcança o melhor desempenho geral, efetivamente superando grandes discrepâncias de tokenizadores sem atualizações de gradiente. Nossa análise ainda identifica esquemas de tokenização numérica incompatíveis como um desafio crítico para preservar capacidades de raciocínio matemático. Essa técnica permite a reutilização direta de pesos de modelos pré-treinados com novos tokenizadores, facilitando a destilação de conhecimento cross-tokenizer, decodificação especulativa, ensembling, fusão e adaptações de vocabulário específicas de domínio. Integramos nosso método na ferramenta de código aberto mergekit-tokensurgeon para realinhamento de vocabulário pós-hoc.
English
We present a training-free method to transplant tokenizers in pretrained
large language models (LLMs) by reconstructing unseen token embeddings via
Orthogonal Matching Pursuit (OMP). Specifically, we approximate each
out-of-vocabulary token as a sparse linear combination of shared tokens, in two
phases: first, compute each new token's representation in the donor embedding
space with a small dictionary of shared anchor tokens, then transfer these same
sparse coefficients back into the base model's embedding space.
On two challenging cross-tokenizer tasks--LlamatoMistral NeMo (12B) and
QwentoLlama (1B)--we show that OMP achieves best zero-shot preservation of
the base model's performance across multiple benchmarks, while other zero-shot
approaches degrade significantly. Compared to baselines (zero-init, mean-init,
and existing approaches like WECHSEL, FOCUS, ZETT), OMP consistently achieves
the best overall performance, effectively bridging large tokenizer
discrepancies without gradient updates. Our analysis further identifies
mismatched numerical tokenization schemes as a critical challenge for
preserving mathematical reasoning capabilities. This technique enables direct
reuse of pretrained model weights with new tokenizers, facilitating
cross-tokenizer knowledge distillation, speculative decoding, ensembling,
merging, and domain-specific vocabulary adaptations. We integrate our method
into the open-source mergekit-tokensurgeon tool for post hoc vocabulary
realignment.