FLEXITOKENS: Гибкая токенизация для развивающихся языковых моделей
FLEXITOKENS: Flexible Tokenization for Evolving Language Models
July 17, 2025
Авторы: Abraham Toluase Owodunni, Orevaoghene Ahia, Sachin Kumar
cs.AI
Аннотация
Языковые модели (ЯМ) сложно адаптировать к новым распределениям данных с помощью простого дообучения. Это связано с жесткостью их субсловных токенизаторов, которые обычно остаются неизменными в процессе адаптации. Такая негибкость часто приводит к неэффективной токенизации, вызывая избыточное фрагментирование данных из распределений, не представленных в обучающей выборке, неизвестных языков или систем письма. В данной работе мы разрабатываем байтовые ЯМ с обучаемыми токенизаторами, чтобы сделать токенизацию адаптивной. Наши модели включают подмодуль, который обучается предсказывать границы между последовательностями байтов входных данных, кодируя их в сегменты переменной длины. Существующие методы, не использующие токенизаторы, обучают этот предиктор границ с помощью вспомогательной функции потерь, которая обеспечивает фиксированный уровень сжатия на всем корпусе данных, что вводит новый вид жесткости. Мы предлагаем FLEXITOKENS — упрощенную целевую функцию обучения, которая обеспечивает значительно большую гибкость в процессе адаптации. Оценивая результаты на множестве многоязычных тестов, морфологически разнообразных задачах и различных доменах, мы демонстрируем, что FLEXITOKENS последовательно снижает избыточное фрагментирование токенов и достигает улучшения производительности на задачах до 10% по сравнению с субсловными и другими градиентными токенизаторами. Код и данные для наших экспериментов будут доступны по адресу https://github.com/owos/flexitokens.
English
Language models (LMs) are challenging to adapt to new data distributions by
simple finetuning. This is due to the rigidity of their subword tokenizers,
which typically remain unchanged during adaptation. This inflexibility often
leads to inefficient tokenization, causing overfragmentation of
out-of-distribution domains, unseen languages, or scripts. In this work, we
develop byte-level LMs with learnable tokenizers to make tokenization adaptive.
Our models include a submodule that learns to predict boundaries between the
input byte sequence, encoding it into variable-length segments. Existing
tokenizer-free methods train this boundary predictor using an auxiliary loss
that enforces a fixed compression rate across the training corpus, introducing
a new kind of rigidity. We propose FLEXITOKENS, a simplified training objective
that enables significantly greater flexibility during adaptation. Evaluating
across multiple multilingual benchmarks, morphologically diverse tasks, and
domains, we demonstrate that FLEXITOKENS consistently reduces token
over-fragmentation and achieves up to 10\% improvements on downstream task
performance compared to subword and other gradient-based tokenizers. Code and
data for our experiments will be released at
https://github.com/owos/flexitokens