Atteindre la flexibilité du tokenizer dans les modèles de langage grâce à l'adaptation heuristique et l'apprentissage de supertokens
Achieving Tokenizer Flexibility in Language Models through Heuristic Adaptation and Supertoken Learning
May 14, 2025
Auteurs: Shaurya Sharthak, Vinayak Pahalwan, Adithya Kamath, Adarsh Shirawalmath
cs.AI
Résumé
Les modèles de langage pré-entraînés (LLMs) sont souvent limités par leurs schémas de tokenisation fixes, entraînant des inefficacités et des limitations de performance, en particulier pour les applications multilingues ou spécialisées. Ce verrouillage du tokeniseur présente des défis significatifs. Les méthodes standard pour y remédier nécessitent souvent des ressources computationnelles prohibitives. Bien que le remplacement du tokeniseur avec une initialisation heuristique vise à réduire cette charge, les méthodes existantes requièrent souvent un réglage fin exhaustif des résidus et peuvent ne pas préserver pleinement les nuances sémantiques ou résoudre adéquatement les inefficacités de compression sous-jacentes. Notre framework introduit deux innovations : premièrement, Tokenadapt, une méthode de transplantation de tokeniseur agnostique au modèle, et deuxièmement, un apprentissage de pré-tokenisation novateur pour les Supertokens multi-mots afin d'améliorer la compression et de réduire la fragmentation. Tokenadapt initialise de nouveaux embeddings de tokens uniques via une heuristique hybride qui combine deux méthodes : une estimation locale basée sur la décomposition en sous-mots utilisant l'ancien tokeniseur, et une estimation globale exploitant les k tokens sémantiquement les plus similaires du vocabulaire original. Cette méthodologie vise à préserver la sémantique tout en minimisant significativement les besoins de réentraînement. Les investigations empiriques valident les deux contributions : l'heuristique de transplantation initialise avec succès des tokens uniques, surpassant nettement les bases de référence conventionnelles et les méthodes sophistiquées incluant Transtokenizer et ReTok, tandis que nos Supertokens obtiennent des gains de compression notables. Nos résultats de perplexité en zero-shot démontrent que l'initialisation hybride de TokenAdapt produit systématiquement des ratios de perplexité plus bas comparés à ceux de ReTok et TransTokenizer, sur différents modèles de base et nouveaux tokeniseurs cibles. TokenAdapt a généralement réduit le ratio de perplexité global de manière significative par rapport à ReTok, offrant au moins une amélioration de 2 fois dans ces scores agrégés.
English
Pretrained language models (LLMs) are often constrained by their fixed
tokenization schemes, leading to inefficiencies and performance limitations,
particularly for multilingual or specialized applications. This tokenizer
lock-in presents significant challenges. standard methods to overcome this
often require prohibitive computational resources. Although tokenizer
replacement with heuristic initialization aims to reduce this burden, existing
methods often require exhaustive residual fine-tuning and still may not fully
preserve semantic nuances or adequately address the underlying compression
inefficiencies. Our framework introduces two innovations: first, Tokenadapt, a
model-agnostic tokenizer transplantation method, and second, novel
pre-tokenization learning for multi-word Supertokens to enhance compression and
reduce fragmentation. Tokenadapt initializes new unique token embeddings via a
hybrid heuristic that combines two methods: a local estimate based on subword
decomposition using the old tokenizer, and a global estimate utilizing the
top-k semantically similar tokens from the original vocabulary. This
methodology aims to preserve semantics while significantly minimizing
retraining requirements. Empirical investigations validate both contributions:
the transplantation heuristic successfully initializes unique tokens, markedly
outperforming conventional baselines and sophisticated methods including
Transtokenizer and ReTok, while our Supertokens achieve notable compression
gains. Our zero-shot perplexity results demonstrate that the TokenAdapt hybrid
initialization consistently yields lower perplexity ratios compared to both
ReTok and TransTokenizer baselines across different base models and newly
trained target tokenizers. TokenAdapt typically reduced the overall perplexity
ratio significantly compared to ReTok, yielding at least a 2-fold improvement
in these aggregate scores.Summary
AI-Generated Summary