FLEXITOKENS: Flexibele Tokenisatie voor Evoluerende Taalmodellen
FLEXITOKENS: Flexible Tokenization for Evolving Language Models
July 17, 2025
Auteurs: Abraham Toluase Owodunni, Orevaoghene Ahia, Sachin Kumar
cs.AI
Samenvatting
Taalmodelen (LMs) zijn moeilijk aan te passen aan nieuwe datadistributies door middel van eenvoudige finetuning. Dit komt door de rigiditeit van hun subwoord-tokenizers, die meestal ongewijzigd blijven tijdens de aanpassing. Deze inflexibiliteit leidt vaak tot inefficiënte tokenisatie, wat resulteert in overmatige fragmentatie van domeinen buiten de distributie, onbekende talen of schriften. In dit werk ontwikkelen we byte-level LMs met leerbare tokenizers om tokenisatie adaptief te maken. Onze modellen bevatten een submodule die leert om grenzen tussen de invoer-bytevolgorde te voorspellen, waardoor deze wordt gecodeerd in variabele-lengte segmenten. Bestaande tokenizer-vrije methoden trainen deze grensvoorspeller met behulp van een hulploss die een vaste compressiesnelheid afdwingt over de trainingscorpus, wat een nieuw soort rigiditeit introduceert. Wij stellen FLEXITOKENS voor, een vereenvoudigd trainingsdoel dat aanzienlijk meer flexibiliteit mogelijk maakt tijdens de aanpassing. Door evaluatie over meerdere meertalige benchmarks, morfologisch diverse taken en domeinen, tonen we aan dat FLEXITOKENS consistent tokenoverfragmentatie vermindert en tot 10\% verbeteringen bereikt in de prestaties van downstream taken in vergelijking met subwoord- en andere op gradienten gebaseerde tokenizers. Code en data voor onze experimenten zullen worden vrijgegeven op https://github.com/owos/flexitokens.
English
Language models (LMs) are challenging to adapt to new data distributions by
simple finetuning. This is due to the rigidity of their subword tokenizers,
which typically remain unchanged during adaptation. This inflexibility often
leads to inefficient tokenization, causing overfragmentation of
out-of-distribution domains, unseen languages, or scripts. In this work, we
develop byte-level LMs with learnable tokenizers to make tokenization adaptive.
Our models include a submodule that learns to predict boundaries between the
input byte sequence, encoding it into variable-length segments. Existing
tokenizer-free methods train this boundary predictor using an auxiliary loss
that enforces a fixed compression rate across the training corpus, introducing
a new kind of rigidity. We propose FLEXITOKENS, a simplified training objective
that enables significantly greater flexibility during adaptation. Evaluating
across multiple multilingual benchmarks, morphologically diverse tasks, and
domains, we demonstrate that FLEXITOKENS consistently reduces token
over-fragmentation and achieves up to 10\% improvements on downstream task
performance compared to subword and other gradient-based tokenizers. Code and
data for our experiments will be released at
https://github.com/owos/flexitokens