ChatPaper.aiChatPaper

CoLoR-Filter: Filtrado de Reducción de Pérdida Condicional para el Preentrenamiento Dirigido de Modelos de Lenguaje

CoLoR-Filter: Conditional Loss Reduction Filtering for Targeted Language Model Pre-training

June 15, 2024
Autores: David Brandfonbrener, Hanlin Zhang, Andreas Kirsch, Jonathan Richard Schwarz, Sham Kakade
cs.AI

Resumen

La selección de datos de alta calidad para el preentrenamiento es crucial para determinar el rendimiento de los modelos de lenguaje en tareas posteriores. Un desafío importante radica en identificar este subconjunto óptimo, un problema generalmente considerado intratable, lo que hace necesario el uso de heurísticas escalables y efectivas. En este trabajo, proponemos un método de selección de datos, CoLoR-Filter (Filtrado de Reducción de Pérdida Condicional), que aprovecha un enfoque inspirado en la estadística bayesiana empírica para derivar un criterio de selección simple y computacionalmente eficiente basado en los valores de pérdida relativa de dos modelos auxiliares. Además de la fundamentación del modelo, evaluamos CoLoR-Filter empíricamente en dos tareas de modelado de lenguaje: (1) selección de datos de C4 para adaptación de dominio en la evaluación de libros y (2) selección de datos de C4 para un conjunto de tareas posteriores de respuesta a preguntas de opción múltiple. Demostramos un escalado favorable tanto al subseleccionar de manera más agresiva como al utilizar modelos auxiliares pequeños para seleccionar datos para modelos objetivo grandes. Como resultado destacado, los datos seleccionados con CoLoR-Filter utilizando un par de modelos auxiliares de 150 millones de parámetros pueden entrenar un modelo objetivo de 1.200 millones de parámetros para igualar el rendimiento de un modelo de 1.200 millones de parámetros entrenado con 25.000 millones de tokens seleccionados al azar, utilizando 25 veces menos datos para libros y 11 veces menos datos para las tareas posteriores. Código: https://github.com/davidbrandfonbrener/color-filter-olmo Datos filtrados: https://huggingface.co/datasets/davidbrandfonbrener/color-filtered-c4
English
Selecting high-quality data for pre-training is crucial in shaping the downstream task performance of language models. A major challenge lies in identifying this optimal subset, a problem generally considered intractable, thus necessitating scalable and effective heuristics. In this work, we propose a data selection method, CoLoR-Filter (Conditional Loss Reduction Filtering), which leverages an empirical Bayes-inspired approach to derive a simple and computationally efficient selection criterion based on the relative loss values of two auxiliary models. In addition to the modeling rationale, we evaluate CoLoR-Filter empirically on two language modeling tasks: (1) selecting data from C4 for domain adaptation to evaluation on Books and (2) selecting data from C4 for a suite of downstream multiple-choice question answering tasks. We demonstrate favorable scaling both as we subselect more aggressively and using small auxiliary models to select data for large target models. As one headline result, CoLoR-Filter data selected using a pair of 150m parameter auxiliary models can train a 1.2b parameter target model to match a 1.2b parameter model trained on 25b randomly selected tokens with 25x less data for Books and 11x less data for the downstream tasks. Code: https://github.com/davidbrandfonbrener/color-filter-olmo Filtered data: https://huggingface.co/datasets/davidbrandfonbrener/color-filtered-c4

Summary

AI-Generated Summary

PDF41December 6, 2024