Trasplante de Tokenizador sin Entrenamiento mediante Búsqueda de Coincidencias Ortogonales
Training-Free Tokenizer Transplantation via Orthogonal Matching Pursuit
June 7, 2025
Autores: Charles Goddard, Fernando Fernandes Neto
cs.AI
Resumen
Presentamos un método sin entrenamiento para trasplantar tokenizadores en modelos de lenguaje grandes (LLMs) preentrenados mediante la reconstrucción de incrustaciones de tokens no vistos a través de la Búsqueda de Coincidencias Ortogonales (OMP, por sus siglas en inglés). Específicamente, aproximamos cada token fuera del vocabulario como una combinación lineal dispersa de tokens compartidos, en dos fases: primero, calculamos la representación de cada nuevo token en el espacio de incrustaciones del modelo donante utilizando un pequeño diccionario de tokens ancla compartidos, luego transferimos estos mismos coeficientes dispersos de vuelta al espacio de incrustaciones del modelo base.
En dos tareas desafiantes de cruce de tokenizadores—LlamatoMistral NeMo (12B) y QwentoLlama (1B)—demostramos que OMP logra la mejor preservación de cero disparos del rendimiento del modelo base en múltiples benchmarks, mientras que otros enfoques de cero disparos se degradan significativamente. En comparación con las líneas base (inicialización cero, inicialización media y enfoques existentes como WECHSEL, FOCUS, ZETT), OMP consigue consistentemente el mejor rendimiento general, cerrando eficazmente grandes discrepancias entre tokenizadores sin actualizaciones de gradiente. Nuestro análisis identifica además los esquemas de tokenización numérica desalineados como un desafío crítico para preservar las capacidades de razonamiento matemático. Esta técnica permite la reutilización directa de los pesos preentrenados del modelo con nuevos tokenizadores, facilitando la destilación de conocimiento entre tokenizadores, decodificación especulativa, ensamblado, fusión y adaptaciones de vocabulario específicas de dominio. Integramos nuestro método en la herramienta de código abierto mergekit-tokensurgeon para el realineamiento de vocabulario a posteriori.
English
We present a training-free method to transplant tokenizers in pretrained
large language models (LLMs) by reconstructing unseen token embeddings via
Orthogonal Matching Pursuit (OMP). Specifically, we approximate each
out-of-vocabulary token as a sparse linear combination of shared tokens, in two
phases: first, compute each new token's representation in the donor embedding
space with a small dictionary of shared anchor tokens, then transfer these same
sparse coefficients back into the base model's embedding space.
On two challenging cross-tokenizer tasks--LlamatoMistral NeMo (12B) and
QwentoLlama (1B)--we show that OMP achieves best zero-shot preservation of
the base model's performance across multiple benchmarks, while other zero-shot
approaches degrade significantly. Compared to baselines (zero-init, mean-init,
and existing approaches like WECHSEL, FOCUS, ZETT), OMP consistently achieves
the best overall performance, effectively bridging large tokenizer
discrepancies without gradient updates. Our analysis further identifies
mismatched numerical tokenization schemes as a critical challenge for
preserving mathematical reasoning capabilities. This technique enables direct
reuse of pretrained model weights with new tokenizers, facilitating
cross-tokenizer knowledge distillation, speculative decoding, ensembling,
merging, and domain-specific vocabulary adaptations. We integrate our method
into the open-source mergekit-tokensurgeon tool for post hoc vocabulary
realignment.