Atteindre la flexibilité du tokenizer dans les modèles de langage grâce à l'adaptation heuristique et l'apprentissage de supertokens

Résumé

Les modèles de langage pré-entraînés (LLMs) sont souvent limités par leurs schémas de tokenisation fixes, entraînant des inefficacités et des limitations de performance, en particulier pour les applications multilingues ou spécialisées. Ce verrouillage du tokeniseur présente des défis significatifs. Les méthodes standard pour y remédier nécessitent souvent des ressources computationnelles prohibitives. Bien que le remplacement du tokeniseur avec une initialisation heuristique vise à réduire cette charge, les méthodes existantes requièrent souvent un réglage fin exhaustif des résidus et peuvent ne pas préserver pleinement les nuances sémantiques ou résoudre adéquatement les inefficacités de compression sous-jacentes. Notre framework introduit deux innovations : premièrement, Tokenadapt, une méthode de transplantation de tokeniseur agnostique au modèle, et deuxièmement, un apprentissage de pré-tokenisation novateur pour les Supertokens multi-mots afin d'améliorer la compression et de réduire la fragmentation. Tokenadapt initialise de nouveaux embeddings de tokens uniques via une heuristique hybride qui combine deux méthodes : une estimation locale basée sur la décomposition en sous-mots utilisant l'ancien tokeniseur, et une estimation globale exploitant les k tokens sémantiquement les plus similaires du vocabulaire original. Cette méthodologie vise à préserver la sémantique tout en minimisant significativement les besoins de réentraînement. Les investigations empiriques valident les deux contributions : l'heuristique de transplantation initialise avec succès des tokens uniques, surpassant nettement les bases de référence conventionnelles et les méthodes sophistiquées incluant Transtokenizer et ReTok, tandis que nos Supertokens obtiennent des gains de compression notables. Nos résultats de perplexité en zero-shot démontrent que l'initialisation hybride de TokenAdapt produit systématiquement des ratios de perplexité plus bas comparés à ceux de ReTok et TransTokenizer, sur différents modèles de base et nouveaux tokeniseurs cibles. TokenAdapt a généralement réduit le ratio de perplexité global de manière significative par rapport à ReTok, offrant au moins une amélioration de 2 fois dans ces scores agrégés.

English

Pretrained language models (LLMs) are often constrained by their fixed tokenization schemes, leading to inefficiencies and performance limitations, particularly for multilingual or specialized applications. This tokenizer lock-in presents significant challenges. standard methods to overcome this often require prohibitive computational resources. Although tokenizer replacement with heuristic initialization aims to reduce this burden, existing methods often require exhaustive residual fine-tuning and still may not fully preserve semantic nuances or adequately address the underlying compression inefficiencies. Our framework introduces two innovations: first, Tokenadapt, a model-agnostic tokenizer transplantation method, and second, novel pre-tokenization learning for multi-word Supertokens to enhance compression and reduce fragmentation. Tokenadapt initializes new unique token embeddings via a hybrid heuristic that combines two methods: a local estimate based on subword decomposition using the old tokenizer, and a global estimate utilizing the top-k semantically similar tokens from the original vocabulary. This methodology aims to preserve semantics while significantly minimizing retraining requirements. Empirical investigations validate both contributions: the transplantation heuristic successfully initializes unique tokens, markedly outperforming conventional baselines and sophisticated methods including Transtokenizer and ReTok, while our Supertokens achieve notable compression gains. Our zero-shot perplexity results demonstrate that the TokenAdapt hybrid initialization consistently yields lower perplexity ratios compared to both ReTok and TransTokenizer baselines across different base models and newly trained target tokenizers. TokenAdapt typically reduced the overall perplexity ratio significantly compared to ReTok, yielding at least a 2-fold improvement in these aggregate scores.

Atteindre la flexibilité du tokenizer dans les modèles de langage grâce à l'adaptation heuristique et l'apprentissage de supertokens

Achieving Tokenizer Flexibility in Language Models through Heuristic Adaptation and Supertoken Learning

Résumé

Support