ChatPaper.aiChatPaper

Пересадка токенизатора без обучения с использованием ортогонального метода поиска совпадений

Training-Free Tokenizer Transplantation via Orthogonal Matching Pursuit

June 7, 2025
Авторы: Charles Goddard, Fernando Fernandes Neto
cs.AI

Аннотация

Мы представляем метод пересадки токенизаторов в предобученные большие языковые модели (LLM) без необходимости дополнительного обучения, восстанавливая неизвестные токенные эмбеддинги с помощью метода ортогонального согласованного поиска (Orthogonal Matching Pursuit, OMP). В частности, мы аппроксимируем каждый токен, отсутствующий в словаре, как разреженную линейную комбинацию общих токенов в два этапа: сначала вычисляем представление каждого нового токена в пространстве эмбеддингов донорской модели с использованием небольшого словаря общих опорных токенов, затем переносим те же самые разреженные коэффициенты обратно в пространство эмбеддингов базовой модели. На двух сложных задачах кросс-токенизации — LlamatoMistral NeMo (12B) и QwentoLlama (1B) — мы показываем, что OMP обеспечивает наилучшее сохранение производительности базовой модели в условиях zero-shot на множестве бенчмарков, в то время как другие zero-shot подходы значительно ухудшают результаты. По сравнению с базовыми методами (zero-init, mean-init и существующими подходами, такими как WECHSEL, FOCUS, ZETT), OMP стабильно демонстрирует наилучшую общую производительность, эффективно устраняя значительные расхождения между токенизаторами без обновления градиентов. Наш анализ также выявляет несоответствия в схемах числовой токенизации как ключевую проблему для сохранения способностей к математическим рассуждениям. Этот метод позволяет напрямую использовать предобученные веса модели с новыми токенизаторами, упрощая кросс-токенизационное дистилляцию знаний, спекулятивное декодирование, ансамблирование, слияние моделей и адаптацию словаря под конкретные домены. Мы интегрировали наш метод в инструмент с открытым исходным кодом mergekit-tokensurgeon для последующего выравнивания словаря.
English
We present a training-free method to transplant tokenizers in pretrained large language models (LLMs) by reconstructing unseen token embeddings via Orthogonal Matching Pursuit (OMP). Specifically, we approximate each out-of-vocabulary token as a sparse linear combination of shared tokens, in two phases: first, compute each new token's representation in the donor embedding space with a small dictionary of shared anchor tokens, then transfer these same sparse coefficients back into the base model's embedding space. On two challenging cross-tokenizer tasks--LlamatoMistral NeMo (12B) and QwentoLlama (1B)--we show that OMP achieves best zero-shot preservation of the base model's performance across multiple benchmarks, while other zero-shot approaches degrade significantly. Compared to baselines (zero-init, mean-init, and existing approaches like WECHSEL, FOCUS, ZETT), OMP consistently achieves the best overall performance, effectively bridging large tokenizer discrepancies without gradient updates. Our analysis further identifies mismatched numerical tokenization schemes as a critical challenge for preserving mathematical reasoning capabilities. This technique enables direct reuse of pretrained model weights with new tokenizers, facilitating cross-tokenizer knowledge distillation, speculative decoding, ensembling, merging, and domain-specific vocabulary adaptations. We integrate our method into the open-source mergekit-tokensurgeon tool for post hoc vocabulary realignment.
PDF22June 11, 2025