Datenmischungs-Inferenz: Was verraten BPE-Tokenisierer über ihre Trainingsdaten?
Data Mixture Inference: What do BPE Tokenizers Reveal about their Training Data?
July 23, 2024
Autoren: Jonathan Hayase, Alisa Liu, Yejin Choi, Sewoong Oh, Noah A. Smith
cs.AI
Zusammenfassung
Die Vortrainingsdaten der heutigen leistungsstärksten Sprachmodelle sind undurchsichtig. Insbesondere ist wenig bekannt über die Anteile verschiedener Domänen oder Sprachen, die vertreten sind. In dieser Arbeit behandeln wir eine Aufgabe, die wir als Datengemisch-Inferenz bezeichnen, die darauf abzielt, die Verteilungszusammensetzung der Trainingsdaten aufzudecken. Wir stellen einen neuartigen Angriff vor, der auf einer zuvor übersehenen Informationsquelle basiert - Byte-Pair-Encoding (BPE)-Tokenizer, die von der überwiegenden Mehrheit der modernen Sprachmodelle verwendet werden. Unsere Schlüsselerkenntnis ist, dass die geordnete Liste der Lernregeln eines BPE-Tokenizers auf natürliche Weise Informationen über die Token-Häufigkeiten in seinen Trainingsdaten offenbart: Das erste Zusammenführen ist das häufigste Byte-Paar, das zweite ist das häufigste Paar nach dem Zusammenführen des ersten Tokens usw. Basierend auf der Zusammenführungsliste eines Tokenizers zusammen mit Datenbeispielen für jede interessierende Kategorie formulieren wir ein lineares Programm, das die Anteile jeder Kategorie im Trainingsdatensatz des Tokenizers löst. Wichtig ist, dass wir, in dem Maße, in dem die Trainingsdaten des Tokenizers repräsentativ für die Vortrainingsdaten sind, indirekt Informationen über die Vortrainingsdaten erhalten. In kontrollierten Experimenten zeigen wir, dass unser Angriff Mischungsverhältnisse mit hoher Präzision für Tokenizers wiederherstellt, die auf bekannten Mischungen natürlicher Sprachen, Programmiersprachen und Datenquellen trainiert sind. Anschließend wenden wir unseren Ansatz auf sofort einsatzbereite Tokenizers an, die mit kürzlich veröffentlichten LMs veröffentlicht wurden. Wir bestätigen viele öffentlich bekannt gegebene Informationen über diese Modelle und ziehen auch mehrere neue Schlussfolgerungen: Der Tokenizer von GPT-4o ist viel mehrsprachig als seine Vorgänger und trainiert mit 39 % nicht-englischen Daten; Llama3 erweitert den Tokenizer von GPT-3.5 hauptsächlich für den mehrsprachigen (48 %) Gebrauch; Die Tokenizer von GPT-3.5 und Claude sind hauptsächlich auf Code (~60 %) trainiert. Wir hoffen, dass unsere Arbeit Einblicke in aktuelle Designpraktiken für Vortrainingsdaten bietet und weiterführende Forschung zur Datengemisch-Inferenz für LMs anregt.
English
The pretraining data of today's strongest language models is opaque. In
particular, little is known about the proportions of various domains or
languages represented. In this work, we tackle a task which we call data
mixture inference, which aims to uncover the distributional make-up of training
data. We introduce a novel attack based on a previously overlooked source of
information -- byte-pair encoding (BPE) tokenizers, used by the vast majority
of modern language models. Our key insight is that the ordered list of merge
rules learned by a BPE tokenizer naturally reveals information about the token
frequencies in its training data: the first merge is the most common byte pair,
the second is the most common pair after merging the first token, and so on.
Given a tokenizer's merge list along with data samples for each category of
interest, we formulate a linear program that solves for the proportion of each
category in the tokenizer's training set. Importantly, to the extent to which
tokenizer training data is representative of the pretraining data, we
indirectly learn about the pretraining data. In controlled experiments, we show
that our attack recovers mixture ratios with high precision for tokenizers
trained on known mixtures of natural languages, programming languages, and data
sources. We then apply our approach to off-the-shelf tokenizers released with
recent LMs. We confirm much publicly disclosed information about these models,
and also make several new inferences: GPT-4o's tokenizer is much more
multilingual than its predecessors, training on 39% non-English data; Llama3
extends GPT-3.5's tokenizer primarily for multilingual (48%) use; GPT-3.5's and
Claude's tokenizers are trained on predominantly code (~60%). We hope our work
sheds light on current design practices for pretraining data, and inspires
continued research into data mixture inference for LMs.Summary
AI-Generated Summary