FLEXITOKENS: Tokenización Flexible para Modelos de Lenguaje en Evolución
FLEXITOKENS: Flexible Tokenization for Evolving Language Models
July 17, 2025
Autores: Abraham Toluase Owodunni, Orevaoghene Ahia, Sachin Kumar
cs.AI
Resumen
Los modelos de lenguaje (LMs) son difíciles de adaptar a nuevas distribuciones de datos mediante un simple ajuste fino. Esto se debe a la rigidez de sus tokenizadores de subpalabras, que generalmente permanecen sin cambios durante la adaptación. Esta inflexibilidad a menudo conduce a una tokenización ineficiente, causando una fragmentación excesiva en dominios fuera de distribución, lenguajes no vistos o escrituras. En este trabajo, desarrollamos modelos de lenguaje a nivel de byte con tokenizadores aprendibles para hacer que la tokenización sea adaptable. Nuestros modelos incluyen un submódulo que aprende a predecir los límites entre la secuencia de bytes de entrada, codificándola en segmentos de longitud variable. Los métodos existentes sin tokenizador entrenan este predictor de límites utilizando una pérdida auxiliar que impone una tasa de compresión fija en todo el corpus de entrenamiento, introduciendo un nuevo tipo de rigidez. Proponemos FLEXITOKENS, un objetivo de entrenamiento simplificado que permite una flexibilidad significativamente mayor durante la adaptación. Evaluando en múltiples benchmarks multilingües, tareas morfológicamente diversas y dominios, demostramos que FLEXITOKENS reduce consistentemente la sobre-fragmentación de tokens y logra mejoras de hasta un 10\% en el rendimiento de tareas posteriores en comparación con tokenizadores de subpalabras y otros basados en gradientes. El código y los datos de nuestros experimentos se publicarán en https://github.com/owos/flexitokens.
English
Language models (LMs) are challenging to adapt to new data distributions by
simple finetuning. This is due to the rigidity of their subword tokenizers,
which typically remain unchanged during adaptation. This inflexibility often
leads to inefficient tokenization, causing overfragmentation of
out-of-distribution domains, unseen languages, or scripts. In this work, we
develop byte-level LMs with learnable tokenizers to make tokenization adaptive.
Our models include a submodule that learns to predict boundaries between the
input byte sequence, encoding it into variable-length segments. Existing
tokenizer-free methods train this boundary predictor using an auxiliary loss
that enforces a fixed compression rate across the training corpus, introducing
a new kind of rigidity. We propose FLEXITOKENS, a simplified training objective
that enables significantly greater flexibility during adaptation. Evaluating
across multiple multilingual benchmarks, morphologically diverse tasks, and
domains, we demonstrate that FLEXITOKENS consistently reduces token
over-fragmentation and achieves up to 10\% improvements on downstream task
performance compared to subword and other gradient-based tokenizers. Code and
data for our experiments will be released at
https://github.com/owos/flexitokens