Logrando flexibilidad en el tokenizador de modelos de lenguaje mediante adaptación heurística y aprendizaje de supertokens
Achieving Tokenizer Flexibility in Language Models through Heuristic Adaptation and Supertoken Learning
May 14, 2025
Autores: Shaurya Sharthak, Vinayak Pahalwan, Adithya Kamath, Adarsh Shirawalmath
cs.AI
Resumen
Los modelos de lenguaje preentrenados (LLMs, por sus siglas en inglés) suelen estar limitados por sus esquemas de tokenización fijos, lo que genera ineficiencias y limitaciones en el rendimiento, especialmente en aplicaciones multilingües o especializadas. Este bloqueo en el tokenizador presenta desafíos significativos. Los métodos estándar para superarlo a menudo requieren recursos computacionales prohibitivos. Aunque el reemplazo del tokenizador con inicialización heurística busca reducir esta carga, los métodos existentes suelen requerir un ajuste fino residual exhaustivo y aún pueden no preservar completamente los matices semánticos o abordar adecuadamente las ineficiencias subyacentes de compresión. Nuestro marco introduce dos innovaciones: primero, Tokenadapt, un método de trasplante de tokenizador independiente del modelo, y segundo, un aprendizaje de pre-tokenización novedoso para Supertokens de múltiples palabras para mejorar la compresión y reducir la fragmentación. Tokenadapt inicializa nuevos embeddings de tokens únicos mediante una heurística híbrida que combina dos métodos: una estimación local basada en la descomposición de subpalabras utilizando el tokenizador antiguo, y una estimación global que utiliza los k tokens semánticamente más similares del vocabulario original. Esta metodología busca preservar la semántica mientras minimiza significativamente los requisitos de reentrenamiento. Las investigaciones empíricas validan ambas contribuciones: la heurística de trasplante inicializa con éxito tokens únicos, superando notablemente los métodos convencionales y sofisticados, incluyendo Transtokenizer y ReTok, mientras que nuestros Supertokens logran ganancias notables en compresión. Nuestros resultados de perplejidad en cero-shot demuestran que la inicialización híbrida de TokenAdapt produce consistentemente ratios de perplejidad más bajos en comparación con los métodos base ReTok y TransTokenizer, tanto en diferentes modelos base como en nuevos tokenizadores objetivo. TokenAdapt típicamente redujo el ratio de perplejidad general significativamente en comparación con ReTok, logrando al menos una mejora de 2 veces en estos puntajes agregados.
English
Pretrained language models (LLMs) are often constrained by their fixed
tokenization schemes, leading to inefficiencies and performance limitations,
particularly for multilingual or specialized applications. This tokenizer
lock-in presents significant challenges. standard methods to overcome this
often require prohibitive computational resources. Although tokenizer
replacement with heuristic initialization aims to reduce this burden, existing
methods often require exhaustive residual fine-tuning and still may not fully
preserve semantic nuances or adequately address the underlying compression
inefficiencies. Our framework introduces two innovations: first, Tokenadapt, a
model-agnostic tokenizer transplantation method, and second, novel
pre-tokenization learning for multi-word Supertokens to enhance compression and
reduce fragmentation. Tokenadapt initializes new unique token embeddings via a
hybrid heuristic that combines two methods: a local estimate based on subword
decomposition using the old tokenizer, and a global estimate utilizing the
top-k semantically similar tokens from the original vocabulary. This
methodology aims to preserve semantics while significantly minimizing
retraining requirements. Empirical investigations validate both contributions:
the transplantation heuristic successfully initializes unique tokens, markedly
outperforming conventional baselines and sophisticated methods including
Transtokenizer and ReTok, while our Supertokens achieve notable compression
gains. Our zero-shot perplexity results demonstrate that the TokenAdapt hybrid
initialization consistently yields lower perplexity ratios compared to both
ReTok and TransTokenizer baselines across different base models and newly
trained target tokenizers. TokenAdapt typically reduced the overall perplexity
ratio significantly compared to ReTok, yielding at least a 2-fold improvement
in these aggregate scores.Summary
AI-Generated Summary