Data Mixture Inferentie: Wat onthullen BPE Tokenizers over hun Trainingsdata?
Data Mixture Inference: What do BPE Tokenizers Reveal about their Training Data?
July 23, 2024
Auteurs: Jonathan Hayase, Alisa Liu, Yejin Choi, Sewoong Oh, Noah A. Smith
cs.AI
Samenvatting
De pretrainingsgegevens van de sterkste taalmodelen van vandaag zijn ondoorzichtig. In het bijzonder is er weinig bekend over de verhoudingen van verschillende domeinen of talen die zijn vertegenwoordigd. In dit werk pakken we een taak aan die we data-mix inferentie noemen, die als doel heeft de distributie van de trainingsgegevens te ontrafelen. We introduceren een nieuwe aanval gebaseerd op een eerder over het hoofd geziene bron van informatie — byte-pair encoding (BPE) tokenizers, die door de overgrote meerderheid van moderne taalmodelen worden gebruikt. Onze belangrijkste inzicht is dat de geordende lijst van samenvoegregels die door een BPE-tokenizer wordt geleerd, van nature informatie onthult over de tokenfrequenties in de trainingsgegevens: de eerste samenvoeging is het meest voorkomende bytepaar, de tweede is het meest voorkomende paar na het samenvoegen van de eerste token, enzovoort. Gegeven een samenvoeglijst van een tokenizer samen met gegevensmonsters voor elke categorie van belang, formuleren we een lineair programma dat de verhouding van elke categorie in de trainingsset van de tokenizer oplost. Belangrijk is dat, voor zover de trainingsgegevens van de tokenizer representatief zijn voor de pretrainingsgegevens, we indirect inzicht krijgen in de pretrainingsgegevens. In gecontroleerde experimenten laten we zien dat onze aanval mengverhoudingen met hoge precisie herstelt voor tokenizers die getraind zijn op bekende mengsels van natuurlijke talen, programmeertalen en gegevensbronnen. We passen onze aanpak vervolgens toe op kant-en-klare tokenizers die zijn vrijgegeven met recente taalmodelen. We bevestigen veel openbaar gemaakte informatie over deze modellen, en doen ook verschillende nieuwe inferenties: de tokenizer van GPT-4o is veel meer meertalig dan zijn voorgangers, getraind op 39% niet-Engelse gegevens; Llama3 breidt de tokenizer van GPT-3.5 voornamelijk uit voor meertalig (48%) gebruik; de tokenizers van GPT-3.5 en Claude zijn getraind op voornamelijk code (~60%). We hopen dat ons werk licht werpt op de huidige ontwerppraktijken voor pretrainingsgegevens, en verder onderzoek inspireert naar data-mix inferentie voor taalmodelen.
English
The pretraining data of today's strongest language models is opaque. In
particular, little is known about the proportions of various domains or
languages represented. In this work, we tackle a task which we call data
mixture inference, which aims to uncover the distributional make-up of training
data. We introduce a novel attack based on a previously overlooked source of
information -- byte-pair encoding (BPE) tokenizers, used by the vast majority
of modern language models. Our key insight is that the ordered list of merge
rules learned by a BPE tokenizer naturally reveals information about the token
frequencies in its training data: the first merge is the most common byte pair,
the second is the most common pair after merging the first token, and so on.
Given a tokenizer's merge list along with data samples for each category of
interest, we formulate a linear program that solves for the proportion of each
category in the tokenizer's training set. Importantly, to the extent to which
tokenizer training data is representative of the pretraining data, we
indirectly learn about the pretraining data. In controlled experiments, we show
that our attack recovers mixture ratios with high precision for tokenizers
trained on known mixtures of natural languages, programming languages, and data
sources. We then apply our approach to off-the-shelf tokenizers released with
recent LMs. We confirm much publicly disclosed information about these models,
and also make several new inferences: GPT-4o's tokenizer is much more
multilingual than its predecessors, training on 39% non-English data; Llama3
extends GPT-3.5's tokenizer primarily for multilingual (48%) use; GPT-3.5's and
Claude's tokenizers are trained on predominantly code (~60%). We hope our work
sheds light on current design practices for pretraining data, and inspires
continued research into data mixture inference for LMs.