FLEXITOKENS : Tokenisation flexible pour les modèles de langage en évolution
FLEXITOKENS: Flexible Tokenization for Evolving Language Models
July 17, 2025
papers.authors: Abraham Toluase Owodunni, Orevaoghene Ahia, Sachin Kumar
cs.AI
papers.abstract
Les modèles de langage (LMs) sont difficiles à adapter à de nouvelles distributions de données par un simple ajustement fin. Cela est dû à la rigidité de leurs tokenizers sous-mots, qui restent généralement inchangés lors de l'adaptation. Cette inflexibilité conduit souvent à une tokenisation inefficace, provoquant une sur-fragmentation des domaines hors distribution, des langues non vues ou des scripts. Dans ce travail, nous développons des LMs au niveau des octets avec des tokenizers apprenables pour rendre la tokenisation adaptative. Nos modèles incluent un sous-module qui apprend à prédire les limites entre les séquences d'octets d'entrée, les encodant en segments de longueur variable. Les méthodes existantes sans tokenizer entraînent ce prédicteur de limites en utilisant une perte auxiliaire qui impose un taux de compression fixe sur le corpus d'entraînement, introduisant ainsi une nouvelle forme de rigidité. Nous proposons FLEXITOKENS, un objectif d'entraînement simplifié qui permet une flexibilité significativement plus grande lors de l'adaptation. En évaluant sur plusieurs benchmarks multilingues, des tâches morphologiquement diversifiées et des domaines variés, nous démontrons que FLEXITOKENS réduit systématiquement la sur-fragmentation des tokens et améliore jusqu'à 10 % les performances sur les tâches en aval par rapport aux tokenizers sous-mots et autres tokenizers basés sur le gradient. Le code et les données de nos expériences seront disponibles à l'adresse suivante : https://github.com/owos/flexitokens.
English
Language models (LMs) are challenging to adapt to new data distributions by
simple finetuning. This is due to the rigidity of their subword tokenizers,
which typically remain unchanged during adaptation. This inflexibility often
leads to inefficient tokenization, causing overfragmentation of
out-of-distribution domains, unseen languages, or scripts. In this work, we
develop byte-level LMs with learnable tokenizers to make tokenization adaptive.
Our models include a submodule that learns to predict boundaries between the
input byte sequence, encoding it into variable-length segments. Existing
tokenizer-free methods train this boundary predictor using an auxiliary loss
that enforces a fixed compression rate across the training corpus, introducing
a new kind of rigidity. We propose FLEXITOKENS, a simplified training objective
that enables significantly greater flexibility during adaptation. Evaluating
across multiple multilingual benchmarks, morphologically diverse tasks, and
domains, we demonstrate that FLEXITOKENS consistently reduces token
over-fragmentation and achieves up to 10\% improvements on downstream task
performance compared to subword and other gradient-based tokenizers. Code and
data for our experiments will be released at
https://github.com/owos/flexitokens