Inferenza sulla Miscela di Dati: Cosa Rivelano i Tokenizzatori BPE sui Dati di Addestramento?

Abstract

I dati di pre-addestramento dei più potenti modelli linguistici odierni sono opachi. In particolare, si sa poco sulle proporzioni dei vari domini o lingue rappresentati. In questo lavoro, affrontiamo un compito che chiamiamo inferenza della miscela di dati, che mira a scoprire la composizione distributiva dei dati di addestramento. Introduciamo un nuovo attacco basato su una fonte di informazione precedentemente trascurata: i tokenizzatori byte-pair encoding (BPE), utilizzati dalla stragrande maggioranza dei moderni modelli linguistici. La nostra intuizione chiave è che la lista ordinata di regole di fusione appresa da un tokenizzatore BPE rivela naturalmente informazioni sulle frequenze dei token nei suoi dati di addestramento: la prima fusione è la coppia di byte più comune, la seconda è la coppia più comune dopo aver fuso il primo token, e così via. Data la lista di fusioni di un tokenizzatore insieme a campioni di dati per ciascuna categoria di interesse, formuliamo un programma lineare che risolve la proporzione di ciascuna categoria nel set di addestramento del tokenizzatore. Importante, nella misura in cui i dati di addestramento del tokenizzatore sono rappresentativi dei dati di pre-addestramento, apprendiamo indirettamente informazioni sui dati di pre-addestramento. In esperimenti controllati, dimostriamo che il nostro attacco recupera i rapporti di miscela con alta precisione per tokenizzatori addestrati su miscele note di lingue naturali, linguaggi di programmazione e fonti di dati. Applichiamo quindi il nostro approccio ai tokenizzatori pronti all'uso rilasciati con recenti modelli linguistici. Confermiamo molte informazioni pubblicamente divulgate su questi modelli e facciamo anche diverse nuove inferenze: il tokenizzatore di GPT-4o è molto più multilingue rispetto ai suoi predecessori, addestrato su dati per il 39% non in inglese; Llama3 estende il tokenizzatore di GPT-3.5 principalmente per uso multilingue (48%); i tokenizzatori di GPT-3.5 e Claude sono addestrati prevalentemente su codice (~60%). Speriamo che il nostro lavoro getti luce sulle attuali pratiche di progettazione dei dati di pre-addestramento e ispiri ulteriori ricerche sull'inferenza della miscela di dati per i modelli linguistici.

English

The pretraining data of today's strongest language models is opaque. In particular, little is known about the proportions of various domains or languages represented. In this work, we tackle a task which we call data mixture inference, which aims to uncover the distributional make-up of training data. We introduce a novel attack based on a previously overlooked source of information -- byte-pair encoding (BPE) tokenizers, used by the vast majority of modern language models. Our key insight is that the ordered list of merge rules learned by a BPE tokenizer naturally reveals information about the token frequencies in its training data: the first merge is the most common byte pair, the second is the most common pair after merging the first token, and so on. Given a tokenizer's merge list along with data samples for each category of interest, we formulate a linear program that solves for the proportion of each category in the tokenizer's training set. Importantly, to the extent to which tokenizer training data is representative of the pretraining data, we indirectly learn about the pretraining data. In controlled experiments, we show that our attack recovers mixture ratios with high precision for tokenizers trained on known mixtures of natural languages, programming languages, and data sources. We then apply our approach to off-the-shelf tokenizers released with recent LMs. We confirm much publicly disclosed information about these models, and also make several new inferences: GPT-4o's tokenizer is much more multilingual than its predecessors, training on 39% non-English data; Llama3 extends GPT-3.5's tokenizer primarily for multilingual (48%) use; GPT-3.5's and Claude's tokenizers are trained on predominantly code (~60%). We hope our work sheds light on current design practices for pretraining data, and inspires continued research into data mixture inference for LMs.

Inferenza sulla Miscela di Dati: Cosa Rivelano i Tokenizzatori BPE sui Dati di Addestramento?

Data Mixture Inference: What do BPE Tokenizers Reveal about their Training Data?

Abstract

Support