Inférence sur le mélange de données : Que révèlent les tokenizers BPE sur leurs données d'entraînement ?
Data Mixture Inference: What do BPE Tokenizers Reveal about their Training Data?
July 23, 2024
Auteurs: Jonathan Hayase, Alisa Liu, Yejin Choi, Sewoong Oh, Noah A. Smith
cs.AI
Résumé
Les données de pré-entraînement des modèles de langage les plus performants actuels sont opaques. En particulier, on sait peu de choses sur les proportions des différents domaines ou langues représentés. Dans ce travail, nous abordons une tâche que nous appelons l'inférence de mélange de données, qui vise à découvrir la composition distributionnelle des données d'entraînement. Nous introduisons une nouvelle attaque basée sur une source d'information jusqu'ici négligée : les tokenizers utilisant l'encodage par paires d'octets (BPE), employés par la grande majorité des modèles de langage modernes. Notre idée clé est que la liste ordonnée des règles de fusion apprises par un tokenizer BPE révèle naturellement des informations sur les fréquences des tokens dans ses données d'entraînement : la première fusion correspond à la paire d'octets la plus fréquente, la seconde à la paire la plus fréquente après la fusion du premier token, et ainsi de suite. Étant donné la liste de fusion d'un tokenizer ainsi que des échantillons de données pour chaque catégorie d'intérêt, nous formulons un programme linéaire qui résout la proportion de chaque catégorie dans l'ensemble d'entraînement du tokenizer. De manière cruciale, dans la mesure où les données d'entraînement du tokenizer sont représentatives des données de pré-entraînement, nous apprenons indirectement sur les données de pré-entraînement. Dans des expériences contrôlées, nous montrons que notre attaque retrouve les ratios de mélange avec une grande précision pour les tokenizers entraînés sur des mélanges connus de langues naturelles, de langages de programmation et de sources de données. Nous appliquons ensuite notre approche aux tokenizers disponibles publiquement, livrés avec des modèles de langage récents. Nous confirmons de nombreuses informations publiquement divulguées sur ces modèles, et faisons également plusieurs nouvelles inférences : le tokenizer de GPT-4 est beaucoup plus multilingue que ses prédécesseurs, avec 39 % de données non anglaises ; Llama3 étend principalement le tokenizer de GPT-3.5 pour un usage multilingue (48 %) ; les tokenizers de GPT-3.5 et de Claude sont entraînés principalement sur du code (~60 %). Nous espérons que notre travail éclaire les pratiques actuelles de conception des données de pré-entraînement et inspire des recherches continues sur l'inférence de mélange de données pour les modèles de langage.
English
The pretraining data of today's strongest language models is opaque. In
particular, little is known about the proportions of various domains or
languages represented. In this work, we tackle a task which we call data
mixture inference, which aims to uncover the distributional make-up of training
data. We introduce a novel attack based on a previously overlooked source of
information -- byte-pair encoding (BPE) tokenizers, used by the vast majority
of modern language models. Our key insight is that the ordered list of merge
rules learned by a BPE tokenizer naturally reveals information about the token
frequencies in its training data: the first merge is the most common byte pair,
the second is the most common pair after merging the first token, and so on.
Given a tokenizer's merge list along with data samples for each category of
interest, we formulate a linear program that solves for the proportion of each
category in the tokenizer's training set. Importantly, to the extent to which
tokenizer training data is representative of the pretraining data, we
indirectly learn about the pretraining data. In controlled experiments, we show
that our attack recovers mixture ratios with high precision for tokenizers
trained on known mixtures of natural languages, programming languages, and data
sources. We then apply our approach to off-the-shelf tokenizers released with
recent LMs. We confirm much publicly disclosed information about these models,
and also make several new inferences: GPT-4o's tokenizer is much more
multilingual than its predecessors, training on 39% non-English data; Llama3
extends GPT-3.5's tokenizer primarily for multilingual (48%) use; GPT-3.5's and
Claude's tokenizers are trained on predominantly code (~60%). We hope our work
sheds light on current design practices for pretraining data, and inspires
continued research into data mixture inference for LMs.Summary
AI-Generated Summary