CoLoR-Filter: Фильтрация с условным снижением потерь для предварительного обучения модели нацеленного языка

Аннотация

Выбор высококачественных данных для предварительного обучения имеет решающее значение для формирования производительности задачи на уровне языковых моделей. Одной из основных проблем является определение оптимального подмножества, задача, обычно считаемая неразрешимой, что требует масштабируемых и эффективных эвристик. В данной работе мы предлагаем метод выбора данных, CoLoR-Filter (Фильтрация с условным снижением потерь), который использует эмпирический подход, вдохновленный байесовской статистикой, для разработки простого и вычислительно эффективного критерия выбора на основе относительных значений потерь двух вспомогательных моделей. Помимо моделирующего обоснования, мы эмпирически оцениваем CoLoR-Filter на двух задачах моделирования языка: (1) выбор данных из C4 для адаптации к домену оценки книг и (2) выбор данных из C4 для набора задач по многовариантному вопросно-ответному моделированию. Мы демонстрируем благоприятное масштабирование как при более агрессивном подвыборе, так и при использовании небольших вспомогательных моделей для выбора данных для крупных целевых моделей. В качестве одного из ключевых результатов, данные, выбранные с помощью CoLoR-Filter с использованием пары вспомогательных моделей с параметрами 150 млн, могут обучить целевую модель с параметрами 1,2 млрд так, чтобы она соответствовала модели с параметрами 1,2 млрд, обученной на 25 млрд случайно выбранных токенов с 25 раз меньшим объемом данных для книг и 11 раз меньшим объемом данных для последующих задач. Код: https://github.com/davidbrandfonbrener/color-filter-olmo Отфильтрованные данные: https://huggingface.co/datasets/davidbrandfonbrener/color-filtered-c4

English

Selecting high-quality data for pre-training is crucial in shaping the downstream task performance of language models. A major challenge lies in identifying this optimal subset, a problem generally considered intractable, thus necessitating scalable and effective heuristics. In this work, we propose a data selection method, CoLoR-Filter (Conditional Loss Reduction Filtering), which leverages an empirical Bayes-inspired approach to derive a simple and computationally efficient selection criterion based on the relative loss values of two auxiliary models. In addition to the modeling rationale, we evaluate CoLoR-Filter empirically on two language modeling tasks: (1) selecting data from C4 for domain adaptation to evaluation on Books and (2) selecting data from C4 for a suite of downstream multiple-choice question answering tasks. We demonstrate favorable scaling both as we subselect more aggressively and using small auxiliary models to select data for large target models. As one headline result, CoLoR-Filter data selected using a pair of 150m parameter auxiliary models can train a 1.2b parameter target model to match a 1.2b parameter model trained on 25b randomly selected tokens with 25x less data for Books and 11x less data for the downstream tasks. Code: https://github.com/davidbrandfonbrener/color-filter-olmo Filtered data: https://huggingface.co/datasets/davidbrandfonbrener/color-filtered-c4

CoLoR-Filter: Фильтрация с условным снижением потерь для предварительного обучения модели нацеленного языка

CoLoR-Filter: Conditional Loss Reduction Filtering for Targeted Language Model Pre-training

Аннотация

Support