Инференция смешанных данных: Что раскрывают токенизаторы BPE о своих обучающих данных?
Data Mixture Inference: What do BPE Tokenizers Reveal about their Training Data?
July 23, 2024
Авторы: Jonathan Hayase, Alisa Liu, Yejin Choi, Sewoong Oh, Noah A. Smith
cs.AI
Аннотация
Данные для предварительного обучения сильнейших современных языковых моделей непрозрачны. В частности, мало известно о пропорциях различных областей или языков, представленных в данных. В данной работе мы решаем задачу, которую мы называем выводом смеси данных, направленную на выявление распределения состава обучающих данных. Мы представляем новую атаку на основе ранее незамеченного источника информации - токенизаторов на основе кодирования байт-пар (BPE), используемых подавляющим большинством современных языковых моделей. Наш ключевой инсайт заключается в том, что упорядоченный список правил объединения, изученных токенизатором BPE, естественным образом раскрывает информацию о частоте токенов в его обучающих данных: первая операция объединения - самая распространенная пара байтов, вторая - самая распространенная пара после объединения первого токена и так далее. Учитывая список объединений токенизатора вместе с образцами данных для каждой интересующей категории, мы формулируем линейную программу, которая решает пропорции каждой категории в обучающем наборе токенизатора. Важно отметить, что в той степени, в которой данные обучения токенизатора представляют предварительные данные, мы косвенно узнаем о предварительных данных. В контролируемых экспериментах мы показываем, что наша атака восстанавливает соотношения смеси с высокой точностью для токенизаторов, обученных на известных смесях естественных языков, языков программирования и источников данных. Затем мы применяем наш подход к готовым токенизаторам, выпущенным с недавними языковыми моделями. Мы подтверждаем много публично раскрытой информации о этих моделях, а также делаем несколько новых выводов: токенизатор GPT-4o гораздо более многоязычен, чем его предшественники, обучаясь на 39% неанглоязычных данных; Llama3 расширяет токенизатор GPT-3.5 в основном для многоязычного использования (48%); токенизаторы GPT-3.5 и Claude обучены в основном на коде (~60%). Мы надеемся, что наша работа проливает свет на текущие практики проектирования данных для предварительного обучения и вдохновляет на продолжение исследований в области вывода смеси данных для языковых моделей.
English
The pretraining data of today's strongest language models is opaque. In
particular, little is known about the proportions of various domains or
languages represented. In this work, we tackle a task which we call data
mixture inference, which aims to uncover the distributional make-up of training
data. We introduce a novel attack based on a previously overlooked source of
information -- byte-pair encoding (BPE) tokenizers, used by the vast majority
of modern language models. Our key insight is that the ordered list of merge
rules learned by a BPE tokenizer naturally reveals information about the token
frequencies in its training data: the first merge is the most common byte pair,
the second is the most common pair after merging the first token, and so on.
Given a tokenizer's merge list along with data samples for each category of
interest, we formulate a linear program that solves for the proportion of each
category in the tokenizer's training set. Importantly, to the extent to which
tokenizer training data is representative of the pretraining data, we
indirectly learn about the pretraining data. In controlled experiments, we show
that our attack recovers mixture ratios with high precision for tokenizers
trained on known mixtures of natural languages, programming languages, and data
sources. We then apply our approach to off-the-shelf tokenizers released with
recent LMs. We confirm much publicly disclosed information about these models,
and also make several new inferences: GPT-4o's tokenizer is much more
multilingual than its predecessors, training on 39% non-English data; Llama3
extends GPT-3.5's tokenizer primarily for multilingual (48%) use; GPT-3.5's and
Claude's tokenizers are trained on predominantly code (~60%). We hope our work
sheds light on current design practices for pretraining data, and inspires
continued research into data mixture inference for LMs.Summary
AI-Generated Summary