ChatPaper.aiChatPaper

Transplantation de tokeniseur sans entraînement via la poursuite orthogonale de correspondance

Training-Free Tokenizer Transplantation via Orthogonal Matching Pursuit

June 7, 2025
Auteurs: Charles Goddard, Fernando Fernandes Neto
cs.AI

Résumé

Nous présentons une méthode sans entraînement pour transplanter des tokenizers dans des grands modèles de langage (LLMs) préentraînés en reconstruisant les embeddings de tokens inconnus via la Poursuite Orthogonale par Correspondance (Orthogonal Matching Pursuit, OMP). Plus précisément, nous approximons chaque token hors vocabulaire comme une combinaison linéaire parcimonieuse de tokens partagés, en deux phases : d'abord, nous calculons la représentation de chaque nouveau token dans l'espace d'embedding du modèle donneur à l'aide d'un petit dictionnaire de tokens ancres partagés, puis nous transférons ces mêmes coefficients parcimonieux dans l'espace d'embedding du modèle de base. Sur deux tâches inter-tokenizers complexes—LlamatoMistral NeMo (12B) et QwentoLlama (1B)—nous montrons que l'OMP obtient la meilleure préservation zéro-shot des performances du modèle de base sur plusieurs benchmarks, tandis que d'autres approches zéro-shot se dégradent significativement. Par rapport aux méthodes de référence (initialisation zéro, initialisation par la moyenne, et approches existantes comme WECHSEL, FOCUS, ZETT), l'OMP atteint systématiquement les meilleures performances globales, comblant efficacement les écarts importants entre tokenizers sans mise à jour des gradients. Notre analyse identifie en outre les schémas de tokenisation numérique incompatibles comme un défi critique pour préserver les capacités de raisonnement mathématique. Cette technique permet la réutilisation directe des poids de modèles préentraînés avec de nouveaux tokenizers, facilitant la distillation de connaissances inter-tokenizers, le décodage spéculatif, l'assemblage, la fusion et les adaptations de vocabulaire spécifiques à un domaine. Nous intégrons notre méthode dans l'outil open-source mergekit-tokensurgeon pour un réalignement post hoc du vocabulaire.
English
We present a training-free method to transplant tokenizers in pretrained large language models (LLMs) by reconstructing unseen token embeddings via Orthogonal Matching Pursuit (OMP). Specifically, we approximate each out-of-vocabulary token as a sparse linear combination of shared tokens, in two phases: first, compute each new token's representation in the donor embedding space with a small dictionary of shared anchor tokens, then transfer these same sparse coefficients back into the base model's embedding space. On two challenging cross-tokenizer tasks--LlamatoMistral NeMo (12B) and QwentoLlama (1B)--we show that OMP achieves best zero-shot preservation of the base model's performance across multiple benchmarks, while other zero-shot approaches degrade significantly. Compared to baselines (zero-init, mean-init, and existing approaches like WECHSEL, FOCUS, ZETT), OMP consistently achieves the best overall performance, effectively bridging large tokenizer discrepancies without gradient updates. Our analysis further identifies mismatched numerical tokenization schemes as a critical challenge for preserving mathematical reasoning capabilities. This technique enables direct reuse of pretrained model weights with new tokenizers, facilitating cross-tokenizer knowledge distillation, speculative decoding, ensembling, merging, and domain-specific vocabulary adaptations. We integrate our method into the open-source mergekit-tokensurgeon tool for post hoc vocabulary realignment.
PDF22June 11, 2025