CoLoR-Filter: Filtrado de Reducción de Pérdida Condicional para el Preentrenamiento Dirigido de Modelos de Lenguaje
CoLoR-Filter: Conditional Loss Reduction Filtering for Targeted Language Model Pre-training
June 15, 2024
Autores: David Brandfonbrener, Hanlin Zhang, Andreas Kirsch, Jonathan Richard Schwarz, Sham Kakade
cs.AI
Resumen
La selección de datos de alta calidad para el preentrenamiento es crucial para determinar el rendimiento de los modelos de lenguaje en tareas posteriores. Un desafío importante radica en identificar este subconjunto óptimo, un problema generalmente considerado intratable, lo que hace necesario el uso de heurísticas escalables y efectivas. En este trabajo, proponemos un método de selección de datos, CoLoR-Filter (Filtrado de Reducción de Pérdida Condicional), que aprovecha un enfoque inspirado en la estadística bayesiana empírica para derivar un criterio de selección simple y computacionalmente eficiente basado en los valores de pérdida relativa de dos modelos auxiliares.
Además de la fundamentación del modelo, evaluamos CoLoR-Filter empíricamente en dos tareas de modelado de lenguaje: (1) selección de datos de C4 para adaptación de dominio en la evaluación de libros y (2) selección de datos de C4 para un conjunto de tareas posteriores de respuesta a preguntas de opción múltiple. Demostramos un escalado favorable tanto al subseleccionar de manera más agresiva como al utilizar modelos auxiliares pequeños para seleccionar datos para modelos objetivo grandes. Como resultado destacado, los datos seleccionados con CoLoR-Filter utilizando un par de modelos auxiliares de 150 millones de parámetros pueden entrenar un modelo objetivo de 1.200 millones de parámetros para igualar el rendimiento de un modelo de 1.200 millones de parámetros entrenado con 25.000 millones de tokens seleccionados al azar, utilizando 25 veces menos datos para libros y 11 veces menos datos para las tareas posteriores.
Código: https://github.com/davidbrandfonbrener/color-filter-olmo
Datos filtrados: https://huggingface.co/datasets/davidbrandfonbrener/color-filtered-c4
English
Selecting high-quality data for pre-training is crucial in shaping the
downstream task performance of language models. A major challenge lies in
identifying this optimal subset, a problem generally considered intractable,
thus necessitating scalable and effective heuristics. In this work, we propose
a data selection method, CoLoR-Filter (Conditional Loss Reduction Filtering),
which leverages an empirical Bayes-inspired approach to derive a simple and
computationally efficient selection criterion based on the relative loss values
of two auxiliary models.
In addition to the modeling rationale, we evaluate CoLoR-Filter empirically
on two language modeling tasks: (1) selecting data from C4 for domain
adaptation to evaluation on Books and (2) selecting data from C4 for a suite of
downstream multiple-choice question answering tasks. We demonstrate favorable
scaling both as we subselect more aggressively and using small auxiliary models
to select data for large target models. As one headline result, CoLoR-Filter
data selected using a pair of 150m parameter auxiliary models can train a 1.2b
parameter target model to match a 1.2b parameter model trained on 25b randomly
selected tokens with 25x less data for Books and 11x less data for the
downstream tasks.
Code: https://github.com/davidbrandfonbrener/color-filter-olmo
Filtered data:
https://huggingface.co/datasets/davidbrandfonbrener/color-filtered-c4Summary
AI-Generated Summary