CoLoR-Filter: Фильтрация с условным снижением потерь для предварительного обучения модели нацеленного языка
CoLoR-Filter: Conditional Loss Reduction Filtering for Targeted Language Model Pre-training
June 15, 2024
Авторы: David Brandfonbrener, Hanlin Zhang, Andreas Kirsch, Jonathan Richard Schwarz, Sham Kakade
cs.AI
Аннотация
Выбор высококачественных данных для предварительного обучения имеет решающее значение для формирования производительности задачи на уровне языковых моделей. Одной из основных проблем является определение оптимального подмножества, задача, обычно считаемая неразрешимой, что требует масштабируемых и эффективных эвристик. В данной работе мы предлагаем метод выбора данных, CoLoR-Filter (Фильтрация с условным снижением потерь), который использует эмпирический подход, вдохновленный байесовской статистикой, для разработки простого и вычислительно эффективного критерия выбора на основе относительных значений потерь двух вспомогательных моделей.
Помимо моделирующего обоснования, мы эмпирически оцениваем CoLoR-Filter на двух задачах моделирования языка: (1) выбор данных из C4 для адаптации к домену оценки книг и (2) выбор данных из C4 для набора задач по многовариантному вопросно-ответному моделированию. Мы демонстрируем благоприятное масштабирование как при более агрессивном подвыборе, так и при использовании небольших вспомогательных моделей для выбора данных для крупных целевых моделей. В качестве одного из ключевых результатов, данные, выбранные с помощью CoLoR-Filter с использованием пары вспомогательных моделей с параметрами 150 млн, могут обучить целевую модель с параметрами 1,2 млрд так, чтобы она соответствовала модели с параметрами 1,2 млрд, обученной на 25 млрд случайно выбранных токенов с 25 раз меньшим объемом данных для книг и 11 раз меньшим объемом данных для последующих задач.
Код: https://github.com/davidbrandfonbrener/color-filter-olmo
Отфильтрованные данные: https://huggingface.co/datasets/davidbrandfonbrener/color-filtered-c4
English
Selecting high-quality data for pre-training is crucial in shaping the
downstream task performance of language models. A major challenge lies in
identifying this optimal subset, a problem generally considered intractable,
thus necessitating scalable and effective heuristics. In this work, we propose
a data selection method, CoLoR-Filter (Conditional Loss Reduction Filtering),
which leverages an empirical Bayes-inspired approach to derive a simple and
computationally efficient selection criterion based on the relative loss values
of two auxiliary models.
In addition to the modeling rationale, we evaluate CoLoR-Filter empirically
on two language modeling tasks: (1) selecting data from C4 for domain
adaptation to evaluation on Books and (2) selecting data from C4 for a suite of
downstream multiple-choice question answering tasks. We demonstrate favorable
scaling both as we subselect more aggressively and using small auxiliary models
to select data for large target models. As one headline result, CoLoR-Filter
data selected using a pair of 150m parameter auxiliary models can train a 1.2b
parameter target model to match a 1.2b parameter model trained on 25b randomly
selected tokens with 25x less data for Books and 11x less data for the
downstream tasks.
Code: https://github.com/davidbrandfonbrener/color-filter-olmo
Filtered data:
https://huggingface.co/datasets/davidbrandfonbrener/color-filtered-c4Summary
AI-Generated Summary