Logrando flexibilidad en el tokenizador de modelos de lenguaje mediante adaptación heurística y aprendizaje de supertokens

Resumen

Los modelos de lenguaje preentrenados (LLMs, por sus siglas en inglés) suelen estar limitados por sus esquemas de tokenización fijos, lo que genera ineficiencias y limitaciones en el rendimiento, especialmente en aplicaciones multilingües o especializadas. Este bloqueo en el tokenizador presenta desafíos significativos. Los métodos estándar para superarlo a menudo requieren recursos computacionales prohibitivos. Aunque el reemplazo del tokenizador con inicialización heurística busca reducir esta carga, los métodos existentes suelen requerir un ajuste fino residual exhaustivo y aún pueden no preservar completamente los matices semánticos o abordar adecuadamente las ineficiencias subyacentes de compresión. Nuestro marco introduce dos innovaciones: primero, Tokenadapt, un método de trasplante de tokenizador independiente del modelo, y segundo, un aprendizaje de pre-tokenización novedoso para Supertokens de múltiples palabras para mejorar la compresión y reducir la fragmentación. Tokenadapt inicializa nuevos embeddings de tokens únicos mediante una heurística híbrida que combina dos métodos: una estimación local basada en la descomposición de subpalabras utilizando el tokenizador antiguo, y una estimación global que utiliza los k tokens semánticamente más similares del vocabulario original. Esta metodología busca preservar la semántica mientras minimiza significativamente los requisitos de reentrenamiento. Las investigaciones empíricas validan ambas contribuciones: la heurística de trasplante inicializa con éxito tokens únicos, superando notablemente los métodos convencionales y sofisticados, incluyendo Transtokenizer y ReTok, mientras que nuestros Supertokens logran ganancias notables en compresión. Nuestros resultados de perplejidad en cero-shot demuestran que la inicialización híbrida de TokenAdapt produce consistentemente ratios de perplejidad más bajos en comparación con los métodos base ReTok y TransTokenizer, tanto en diferentes modelos base como en nuevos tokenizadores objetivo. TokenAdapt típicamente redujo el ratio de perplejidad general significativamente en comparación con ReTok, logrando al menos una mejora de 2 veces en estos puntajes agregados.

English

Pretrained language models (LLMs) are often constrained by their fixed tokenization schemes, leading to inefficiencies and performance limitations, particularly for multilingual or specialized applications. This tokenizer lock-in presents significant challenges. standard methods to overcome this often require prohibitive computational resources. Although tokenizer replacement with heuristic initialization aims to reduce this burden, existing methods often require exhaustive residual fine-tuning and still may not fully preserve semantic nuances or adequately address the underlying compression inefficiencies. Our framework introduces two innovations: first, Tokenadapt, a model-agnostic tokenizer transplantation method, and second, novel pre-tokenization learning for multi-word Supertokens to enhance compression and reduce fragmentation. Tokenadapt initializes new unique token embeddings via a hybrid heuristic that combines two methods: a local estimate based on subword decomposition using the old tokenizer, and a global estimate utilizing the top-k semantically similar tokens from the original vocabulary. This methodology aims to preserve semantics while significantly minimizing retraining requirements. Empirical investigations validate both contributions: the transplantation heuristic successfully initializes unique tokens, markedly outperforming conventional baselines and sophisticated methods including Transtokenizer and ReTok, while our Supertokens achieve notable compression gains. Our zero-shot perplexity results demonstrate that the TokenAdapt hybrid initialization consistently yields lower perplexity ratios compared to both ReTok and TransTokenizer baselines across different base models and newly trained target tokenizers. TokenAdapt typically reduced the overall perplexity ratio significantly compared to ReTok, yielding at least a 2-fold improvement in these aggregate scores.

Logrando flexibilidad en el tokenizador de modelos de lenguaje mediante adaptación heurística y aprendizaje de supertokens

Achieving Tokenizer Flexibility in Language Models through Heuristic Adaptation and Supertoken Learning

Resumen

Support