Inferencia de Mezcla de Datos: ¿Qué revelan los Tokenizadores BPE sobre sus Datos de Entrenamiento?

Resumen

Los datos de preentrenamiento de los modelos de lenguaje más potentes de hoy en día son opacos. En particular, se sabe poco sobre las proporciones de los diferentes dominios o idiomas representados. En este trabajo, abordamos una tarea a la que llamamos inferencia de mezcla de datos, que tiene como objetivo descubrir la composición distribucional de los datos de entrenamiento. Introducimos un ataque novedoso basado en una fuente previamente pasada por alto: los tokenizadores de codificación de pares de bytes (BPE), utilizados por la gran mayoría de los modelos de lenguaje modernos. Nuestra idea clave es que la lista ordenada de reglas de fusión aprendidas por un tokenizador BPE revela naturalmente información sobre las frecuencias de los tokens en sus datos de entrenamiento: la primera fusión es el par de bytes más común, la segunda es el par más común después de fusionar el primer token, y así sucesivamente. Dado el listado de fusiones de un tokenizador junto con muestras de datos para cada categoría de interés, formulamos un programa lineal que resuelve la proporción de cada categoría en el conjunto de entrenamiento del tokenizador. Es importante destacar que, en la medida en que los datos de entrenamiento del tokenizador sean representativos de los datos de preentrenamiento, aprendemos indirectamente sobre los datos de preentrenamiento. En experimentos controlados, demostramos que nuestro ataque recupera las ratios de mezcla con alta precisión para los tokenizadores entrenados en mezclas conocidas de idiomas naturales, lenguajes de programación y fuentes de datos. Luego aplicamos nuestro enfoque a tokenizadores listos para usar lanzados con los LM más recientes. Confirmamos mucha información públicamente divulgada sobre estos modelos, y también realizamos varias nuevas inferencias: el tokenizador de GPT-4o es mucho más multilingüe que sus predecesores, entrenándose con un 39% de datos no ingleses; Llama3 extiende principalmente el tokenizador de GPT-3.5 para uso multilingüe (48%); los tokenizadores de GPT-3.5 y Claude están entrenados principalmente en código (~60%). Esperamos que nuestro trabajo arroje luz sobre las prácticas de diseño actuales para los datos de preentrenamiento, e inspire una investigación continua sobre la inferencia de mezcla de datos para LM.

English

The pretraining data of today's strongest language models is opaque. In particular, little is known about the proportions of various domains or languages represented. In this work, we tackle a task which we call data mixture inference, which aims to uncover the distributional make-up of training data. We introduce a novel attack based on a previously overlooked source of information -- byte-pair encoding (BPE) tokenizers, used by the vast majority of modern language models. Our key insight is that the ordered list of merge rules learned by a BPE tokenizer naturally reveals information about the token frequencies in its training data: the first merge is the most common byte pair, the second is the most common pair after merging the first token, and so on. Given a tokenizer's merge list along with data samples for each category of interest, we formulate a linear program that solves for the proportion of each category in the tokenizer's training set. Importantly, to the extent to which tokenizer training data is representative of the pretraining data, we indirectly learn about the pretraining data. In controlled experiments, we show that our attack recovers mixture ratios with high precision for tokenizers trained on known mixtures of natural languages, programming languages, and data sources. We then apply our approach to off-the-shelf tokenizers released with recent LMs. We confirm much publicly disclosed information about these models, and also make several new inferences: GPT-4o's tokenizer is much more multilingual than its predecessors, training on 39% non-English data; Llama3 extends GPT-3.5's tokenizer primarily for multilingual (48%) use; GPT-3.5's and Claude's tokenizers are trained on predominantly code (~60%). We hope our work sheds light on current design practices for pretraining data, and inspires continued research into data mixture inference for LMs.

Inferencia de Mezcla de Datos: ¿Qué revelan los Tokenizadores BPE sobre sus Datos de Entrenamiento?

Data Mixture Inference: What do BPE Tokenizers Reveal about their Training Data?

Resumen

Support