ChatPaper.aiChatPaper

FLEXITOKENS: Tokenizzazione Flessibile per Modelli Linguistici in Evoluzione

FLEXITOKENS: Flexible Tokenization for Evolving Language Models

July 17, 2025
Autori: Abraham Toluase Owodunni, Orevaoghene Ahia, Sachin Kumar
cs.AI

Abstract

I modelli linguistici (LM) sono difficili da adattare a nuove distribuzioni di dati attraverso un semplice fine-tuning. Ciò è dovuto alla rigidità dei loro tokenizzatori subword, che tipicamente rimangono invariati durante l'adattamento. Questa mancanza di flessibilità spesso porta a una tokenizzazione inefficiente, causando una sovraframmentazione di domini fuori distribuzione, lingue non viste o script. In questo lavoro, sviluppiamo modelli linguistici a livello di byte con tokenizzatori apprendibili per rendere la tokenizzazione adattiva. I nostri modelli includono un sottomodulo che impara a prevedere i confini tra la sequenza di byte in input, codificandola in segmenti di lunghezza variabile. I metodi esistenti senza tokenizzatore addestrano questo predittore di confini utilizzando una perdita ausiliaria che impone un tasso di compressione fisso su tutto il corpus di addestramento, introducendo un nuovo tipo di rigidità. Proponiamo FLEXITOKENS, un obiettivo di addestramento semplificato che consente una flessibilità significativamente maggiore durante l'adattamento. Valutando su più benchmark multilingue, task morfologicamente diversificati e domini, dimostriamo che FLEXITOKENS riduce costantemente la sovraframmentazione dei token e ottiene miglioramenti fino al 10\% nelle prestazioni delle task downstream rispetto ai tokenizzatori subword e ad altri tokenizzatori basati su gradienti. Il codice e i dati per i nostri esperimenti saranno rilasciati su https://github.com/owos/flexitokens.
English
Language models (LMs) are challenging to adapt to new data distributions by simple finetuning. This is due to the rigidity of their subword tokenizers, which typically remain unchanged during adaptation. This inflexibility often leads to inefficient tokenization, causing overfragmentation of out-of-distribution domains, unseen languages, or scripts. In this work, we develop byte-level LMs with learnable tokenizers to make tokenization adaptive. Our models include a submodule that learns to predict boundaries between the input byte sequence, encoding it into variable-length segments. Existing tokenizer-free methods train this boundary predictor using an auxiliary loss that enforces a fixed compression rate across the training corpus, introducing a new kind of rigidity. We propose FLEXITOKENS, a simplified training objective that enables significantly greater flexibility during adaptation. Evaluating across multiple multilingual benchmarks, morphologically diverse tasks, and domains, we demonstrate that FLEXITOKENS consistently reduces token over-fragmentation and achieves up to 10\% improvements on downstream task performance compared to subword and other gradient-based tokenizers. Code and data for our experiments will be released at https://github.com/owos/flexitokens
PDF82July 18, 2025