Inferência de Mistura de Dados: O que os Tokenizadores BPE Revelam sobre seus Dados de Treinamento?
Data Mixture Inference: What do BPE Tokenizers Reveal about their Training Data?
July 23, 2024
Autores: Jonathan Hayase, Alisa Liu, Yejin Choi, Sewoong Oh, Noah A. Smith
cs.AI
Resumo
Os dados de pré-treinamento dos modelos de linguagem mais avançados de hoje são opacos. Em particular, pouco se sabe sobre as proporções de vários domínios ou idiomas representados. Neste trabalho, abordamos uma tarefa que chamamos de inferência de mistura de dados, que tem como objetivo descobrir a composição distribucional dos dados de treinamento. Introduzimos um ataque inovador baseado em uma fonte de informação anteriormente negligenciada - os tokenizadores de codificação de pares de bytes (BPE), usados pela grande maioria dos modelos de linguagem modernos. Nossa principal percepção é que a lista ordenada de regras de mesclagem aprendidas por um tokenizador BPE revela naturalmente informações sobre as frequências de tokens em seus dados de treinamento: a primeira mesclagem é o par de bytes mais comum, a segunda é o par mais comum após mesclar o primeiro token, e assim por diante. Dado a lista de mesclagens de um tokenizador juntamente com amostras de dados para cada categoria de interesse, formulamos um programa linear que resolve a proporção de cada categoria no conjunto de treinamento do tokenizador. Importante ressaltar que, na medida em que os dados de treinamento do tokenizador são representativos dos dados de pré-treinamento, aprendemos indiretamente sobre os dados de pré-treinamento. Em experimentos controlados, mostramos que nosso ataque recupera proporções de mistura com alta precisão para tokenizadores treinados em misturas conhecidas de idiomas naturais, linguagens de programação e fontes de dados. Em seguida, aplicamos nossa abordagem a tokenizadores prontos para uso lançados com LMs recentes. Confirmamos muitas informações publicamente divulgadas sobre esses modelos e também fazemos várias novas inferências: o tokenizador do GPT-4o é muito mais multilíngue do que seus predecessores, treinando com 39% de dados não ingleses; o Llama3 estende o tokenizador do GPT-3.5 principalmente para uso multilíngue (48%); os tokenizadores do GPT-3.5 e do Claude são treinados predominantemente em código (~60%). Esperamos que nosso trabalho esclareça as práticas de design atuais para dados de pré-treinamento e inspire pesquisas contínuas sobre a inferência de mistura de dados para LMs.
English
The pretraining data of today's strongest language models is opaque. In
particular, little is known about the proportions of various domains or
languages represented. In this work, we tackle a task which we call data
mixture inference, which aims to uncover the distributional make-up of training
data. We introduce a novel attack based on a previously overlooked source of
information -- byte-pair encoding (BPE) tokenizers, used by the vast majority
of modern language models. Our key insight is that the ordered list of merge
rules learned by a BPE tokenizer naturally reveals information about the token
frequencies in its training data: the first merge is the most common byte pair,
the second is the most common pair after merging the first token, and so on.
Given a tokenizer's merge list along with data samples for each category of
interest, we formulate a linear program that solves for the proportion of each
category in the tokenizer's training set. Importantly, to the extent to which
tokenizer training data is representative of the pretraining data, we
indirectly learn about the pretraining data. In controlled experiments, we show
that our attack recovers mixture ratios with high precision for tokenizers
trained on known mixtures of natural languages, programming languages, and data
sources. We then apply our approach to off-the-shelf tokenizers released with
recent LMs. We confirm much publicly disclosed information about these models,
and also make several new inferences: GPT-4o's tokenizer is much more
multilingual than its predecessors, training on 39% non-English data; Llama3
extends GPT-3.5's tokenizer primarily for multilingual (48%) use; GPT-3.5's and
Claude's tokenizers are trained on predominantly code (~60%). We hope our work
sheds light on current design practices for pretraining data, and inspires
continued research into data mixture inference for LMs.Summary
AI-Generated Summary