FLEXITOKENS: Tokenização Flexível para Modelos de Linguagem em Evolução
FLEXITOKENS: Flexible Tokenization for Evolving Language Models
July 17, 2025
Autores: Abraham Toluase Owodunni, Orevaoghene Ahia, Sachin Kumar
cs.AI
Resumo
Modelos de linguagem (LMs) são desafiadores de adaptar a novas distribuições de dados por meio de simples ajustes finos. Isso se deve à rigidez de seus tokenizadores de subpalavras, que normalmente permanecem inalterados durante a adaptação. Essa inflexibilidade frequentemente leva a uma tokenização ineficiente, causando a superfragmentação de domínios fora da distribuição, idiomas não vistos ou scripts. Neste trabalho, desenvolvemos LMs em nível de byte com tokenizadores aprendíveis para tornar a tokenização adaptativa. Nossos modelos incluem um submódulo que aprende a prever os limites entre a sequência de bytes de entrada, codificando-a em segmentos de comprimento variável. Métodos existentes sem tokenizador treinam esse preditor de limites usando uma perda auxiliar que impõe uma taxa de compressão fixa em todo o corpus de treinamento, introduzindo um novo tipo de rigidez. Propomos FLEXITOKENS, um objetivo de treinamento simplificado que permite uma flexibilidade significativamente maior durante a adaptação. Avaliando em vários benchmarks multilingues, tarefas morfologicamente diversas e domínios, demonstramos que o FLEXITOKENS reduz consistentemente a superfragmentação de tokens e alcança melhorias de até 10% no desempenho de tarefas subsequentes em comparação com tokenizadores de subpalavras e outros baseados em gradiente. O código e os dados para nossos experimentos serão disponibilizados em https://github.com/owos/flexitokens.
English
Language models (LMs) are challenging to adapt to new data distributions by
simple finetuning. This is due to the rigidity of their subword tokenizers,
which typically remain unchanged during adaptation. This inflexibility often
leads to inefficient tokenization, causing overfragmentation of
out-of-distribution domains, unseen languages, or scripts. In this work, we
develop byte-level LMs with learnable tokenizers to make tokenization adaptive.
Our models include a submodule that learns to predict boundaries between the
input byte sequence, encoding it into variable-length segments. Existing
tokenizer-free methods train this boundary predictor using an auxiliary loss
that enforces a fixed compression rate across the training corpus, introducing
a new kind of rigidity. We propose FLEXITOKENS, a simplified training objective
that enables significantly greater flexibility during adaptation. Evaluating
across multiple multilingual benchmarks, morphologically diverse tasks, and
domains, we demonstrate that FLEXITOKENS consistently reduces token
over-fragmentation and achieves up to 10\% improvements on downstream task
performance compared to subword and other gradient-based tokenizers. Code and
data for our experiments will be released at
https://github.com/owos/flexitokens