FLEXITOKENS: Flexible Tokenisierung für sich entwickelnde Sprachmodelle
FLEXITOKENS: Flexible Tokenization for Evolving Language Models
July 17, 2025
papers.authors: Abraham Toluase Owodunni, Orevaoghene Ahia, Sachin Kumar
cs.AI
papers.abstract
Sprachmodelle (LMs) sind schwer an neue Datenverteilungen durch einfaches Feinabstimmen anzupassen. Dies liegt an der Starrheit ihrer Subwort-Tokenizer, die während der Anpassung typischerweise unverändert bleiben. Diese Unflexibilität führt oft zu einer ineffizienten Tokenisierung, was eine Überfragmentierung von außerhalb der Verteilung liegenden Domänen, unbekannten Sprachen oder Schriften verursacht. In dieser Arbeit entwickeln wir Byte-Level-LMs mit lernfähigen Tokenizern, um die Tokenisierung adaptiv zu gestalten. Unsere Modelle beinhalten ein Submodul, das lernt, Grenzen zwischen der Eingabebytefolge vorherzusagen und sie in variabel lange Segmente zu kodieren. Bestehende tokenizerfreie Methoden trainieren diesen Grenzvorhersager mithilfe eines zusätzlichen Verlusts, der eine feste Kompressionsrate über den Trainingskorpus erzwingt, was eine neue Art von Starrheit einführt. Wir schlagen FLEXITOKENS vor, ein vereinfachtes Trainingsziel, das während der Anpassung deutlich größere Flexibilität ermöglicht. Bei der Bewertung über mehrere mehrsprachige Benchmarks, morphologisch vielfältige Aufgaben und Domänen zeigen wir, dass FLEXITOKENS konsequent die Token-Überfragmentierung reduziert und im Vergleich zu Subwort- und anderen gradientenbasierten Tokenizern Verbesserungen von bis zu 10 % bei der Leistung nachgelagerter Aufgaben erzielt. Code und Daten für unsere Experimente werden unter https://github.com/owos/flexitokens veröffentlicht.
English
Language models (LMs) are challenging to adapt to new data distributions by
simple finetuning. This is due to the rigidity of their subword tokenizers,
which typically remain unchanged during adaptation. This inflexibility often
leads to inefficient tokenization, causing overfragmentation of
out-of-distribution domains, unseen languages, or scripts. In this work, we
develop byte-level LMs with learnable tokenizers to make tokenization adaptive.
Our models include a submodule that learns to predict boundaries between the
input byte sequence, encoding it into variable-length segments. Existing
tokenizer-free methods train this boundary predictor using an auxiliary loss
that enforces a fixed compression rate across the training corpus, introducing
a new kind of rigidity. We propose FLEXITOKENS, a simplified training objective
that enables significantly greater flexibility during adaptation. Evaluating
across multiple multilingual benchmarks, morphologically diverse tasks, and
domains, we demonstrate that FLEXITOKENS consistently reduces token
over-fragmentation and achieves up to 10\% improvements on downstream task
performance compared to subword and other gradient-based tokenizers. Code and
data for our experiments will be released at
https://github.com/owos/flexitokens