Inférence sur le mélange de données : Que révèlent les tokenizers BPE sur leurs données d'entraînement ?

Résumé

Les données de pré-entraînement des modèles de langage les plus performants actuels sont opaques. En particulier, on sait peu de choses sur les proportions des différents domaines ou langues représentés. Dans ce travail, nous abordons une tâche que nous appelons l'inférence de mélange de données, qui vise à découvrir la composition distributionnelle des données d'entraînement. Nous introduisons une nouvelle attaque basée sur une source d'information jusqu'ici négligée : les tokenizers utilisant l'encodage par paires d'octets (BPE), employés par la grande majorité des modèles de langage modernes. Notre idée clé est que la liste ordonnée des règles de fusion apprises par un tokenizer BPE révèle naturellement des informations sur les fréquences des tokens dans ses données d'entraînement : la première fusion correspond à la paire d'octets la plus fréquente, la seconde à la paire la plus fréquente après la fusion du premier token, et ainsi de suite. Étant donné la liste de fusion d'un tokenizer ainsi que des échantillons de données pour chaque catégorie d'intérêt, nous formulons un programme linéaire qui résout la proportion de chaque catégorie dans l'ensemble d'entraînement du tokenizer. De manière cruciale, dans la mesure où les données d'entraînement du tokenizer sont représentatives des données de pré-entraînement, nous apprenons indirectement sur les données de pré-entraînement. Dans des expériences contrôlées, nous montrons que notre attaque retrouve les ratios de mélange avec une grande précision pour les tokenizers entraînés sur des mélanges connus de langues naturelles, de langages de programmation et de sources de données. Nous appliquons ensuite notre approche aux tokenizers disponibles publiquement, livrés avec des modèles de langage récents. Nous confirmons de nombreuses informations publiquement divulguées sur ces modèles, et faisons également plusieurs nouvelles inférences : le tokenizer de GPT-4 est beaucoup plus multilingue que ses prédécesseurs, avec 39 % de données non anglaises ; Llama3 étend principalement le tokenizer de GPT-3.5 pour un usage multilingue (48 %) ; les tokenizers de GPT-3.5 et de Claude sont entraînés principalement sur du code (~60 %). Nous espérons que notre travail éclaire les pratiques actuelles de conception des données de pré-entraînement et inspire des recherches continues sur l'inférence de mélange de données pour les modèles de langage.

English

The pretraining data of today's strongest language models is opaque. In particular, little is known about the proportions of various domains or languages represented. In this work, we tackle a task which we call data mixture inference, which aims to uncover the distributional make-up of training data. We introduce a novel attack based on a previously overlooked source of information -- byte-pair encoding (BPE) tokenizers, used by the vast majority of modern language models. Our key insight is that the ordered list of merge rules learned by a BPE tokenizer naturally reveals information about the token frequencies in its training data: the first merge is the most common byte pair, the second is the most common pair after merging the first token, and so on. Given a tokenizer's merge list along with data samples for each category of interest, we formulate a linear program that solves for the proportion of each category in the tokenizer's training set. Importantly, to the extent to which tokenizer training data is representative of the pretraining data, we indirectly learn about the pretraining data. In controlled experiments, we show that our attack recovers mixture ratios with high precision for tokenizers trained on known mixtures of natural languages, programming languages, and data sources. We then apply our approach to off-the-shelf tokenizers released with recent LMs. We confirm much publicly disclosed information about these models, and also make several new inferences: GPT-4o's tokenizer is much more multilingual than its predecessors, training on 39% non-English data; Llama3 extends GPT-3.5's tokenizer primarily for multilingual (48%) use; GPT-3.5's and Claude's tokenizers are trained on predominantly code (~60%). We hope our work sheds light on current design practices for pretraining data, and inspires continued research into data mixture inference for LMs.

Inférence sur le mélange de données : Que révèlent les tokenizers BPE sur leurs données d'entraînement ?

Data Mixture Inference: What do BPE Tokenizers Reveal about their Training Data?

Résumé

Support