Inferencia de Mezcla de Datos: ¿Qué revelan los Tokenizadores BPE sobre sus Datos de Entrenamiento?
Data Mixture Inference: What do BPE Tokenizers Reveal about their Training Data?
July 23, 2024
Autores: Jonathan Hayase, Alisa Liu, Yejin Choi, Sewoong Oh, Noah A. Smith
cs.AI
Resumen
Los datos de preentrenamiento de los modelos de lenguaje más potentes de hoy en día son opacos. En particular, se sabe poco sobre las proporciones de los diferentes dominios o idiomas representados. En este trabajo, abordamos una tarea a la que llamamos inferencia de mezcla de datos, que tiene como objetivo descubrir la composición distribucional de los datos de entrenamiento. Introducimos un ataque novedoso basado en una fuente previamente pasada por alto: los tokenizadores de codificación de pares de bytes (BPE), utilizados por la gran mayoría de los modelos de lenguaje modernos. Nuestra idea clave es que la lista ordenada de reglas de fusión aprendidas por un tokenizador BPE revela naturalmente información sobre las frecuencias de los tokens en sus datos de entrenamiento: la primera fusión es el par de bytes más común, la segunda es el par más común después de fusionar el primer token, y así sucesivamente. Dado el listado de fusiones de un tokenizador junto con muestras de datos para cada categoría de interés, formulamos un programa lineal que resuelve la proporción de cada categoría en el conjunto de entrenamiento del tokenizador. Es importante destacar que, en la medida en que los datos de entrenamiento del tokenizador sean representativos de los datos de preentrenamiento, aprendemos indirectamente sobre los datos de preentrenamiento. En experimentos controlados, demostramos que nuestro ataque recupera las ratios de mezcla con alta precisión para los tokenizadores entrenados en mezclas conocidas de idiomas naturales, lenguajes de programación y fuentes de datos. Luego aplicamos nuestro enfoque a tokenizadores listos para usar lanzados con los LM más recientes. Confirmamos mucha información públicamente divulgada sobre estos modelos, y también realizamos varias nuevas inferencias: el tokenizador de GPT-4o es mucho más multilingüe que sus predecesores, entrenándose con un 39% de datos no ingleses; Llama3 extiende principalmente el tokenizador de GPT-3.5 para uso multilingüe (48%); los tokenizadores de GPT-3.5 y Claude están entrenados principalmente en código (~60%). Esperamos que nuestro trabajo arroje luz sobre las prácticas de diseño actuales para los datos de preentrenamiento, e inspire una investigación continua sobre la inferencia de mezcla de datos para LM.
English
The pretraining data of today's strongest language models is opaque. In
particular, little is known about the proportions of various domains or
languages represented. In this work, we tackle a task which we call data
mixture inference, which aims to uncover the distributional make-up of training
data. We introduce a novel attack based on a previously overlooked source of
information -- byte-pair encoding (BPE) tokenizers, used by the vast majority
of modern language models. Our key insight is that the ordered list of merge
rules learned by a BPE tokenizer naturally reveals information about the token
frequencies in its training data: the first merge is the most common byte pair,
the second is the most common pair after merging the first token, and so on.
Given a tokenizer's merge list along with data samples for each category of
interest, we formulate a linear program that solves for the proportion of each
category in the tokenizer's training set. Importantly, to the extent to which
tokenizer training data is representative of the pretraining data, we
indirectly learn about the pretraining data. In controlled experiments, we show
that our attack recovers mixture ratios with high precision for tokenizers
trained on known mixtures of natural languages, programming languages, and data
sources. We then apply our approach to off-the-shelf tokenizers released with
recent LMs. We confirm much publicly disclosed information about these models,
and also make several new inferences: GPT-4o's tokenizer is much more
multilingual than its predecessors, training on 39% non-English data; Llama3
extends GPT-3.5's tokenizer primarily for multilingual (48%) use; GPT-3.5's and
Claude's tokenizers are trained on predominantly code (~60%). We hope our work
sheds light on current design practices for pretraining data, and inspires
continued research into data mixture inference for LMs.Summary
AI-Generated Summary