ChatPaper.aiChatPaper

CoLoR-Filter: Filtro di Riduzione Condizionale della Perdita per il Pre-Addestramento Mirato di Modelli Linguistici

CoLoR-Filter: Conditional Loss Reduction Filtering for Targeted Language Model Pre-training

June 15, 2024
Autori: David Brandfonbrener, Hanlin Zhang, Andreas Kirsch, Jonathan Richard Schwarz, Sham Kakade
cs.AI

Abstract

La selezione di dati di alta qualità per il pre-addestramento è cruciale nel determinare le prestazioni dei modelli linguistici nei task downstream. Una delle principali sfide risiede nell'identificare questo sottoinsieme ottimale, un problema generalmente considerato intrattabile, che richiede quindi euristiche scalabili ed efficaci. In questo lavoro, proponiamo un metodo di selezione dei dati, CoLoR-Filter (Conditional Loss Reduction Filtering), che sfrutta un approccio ispirato all'empirical Bayes per derivare un criterio di selezione semplice e computazionalmente efficiente basato sui valori di perdita relativi di due modelli ausiliari. Oltre alla logica di modellazione, valutiamo empiricamente CoLoR-Filter su due task di modellazione linguistica: (1) la selezione di dati da C4 per l'adattamento al dominio nella valutazione su Books e (2) la selezione di dati da C4 per una serie di task downstream di risposta a domande a scelta multipla. Dimostriamo un favorevole scaling sia quando selezioniamo i dati in modo più aggressivo, sia utilizzando piccoli modelli ausiliari per selezionare dati per modelli target di grandi dimensioni. Come risultato principale, i dati selezionati con CoLoR-Filter utilizzando una coppia di modelli ausiliari da 150 milioni di parametri possono addestrare un modello target da 1,2 miliardi di parametri per eguagliare le prestazioni di un modello da 1,2 miliardi di parametri addestrato su 25 miliardi di token selezionati casualmente, utilizzando 25 volte meno dati per Books e 11 volte meno dati per i task downstream. Codice: https://github.com/davidbrandfonbrener/color-filter-olmo Dati filtrati: https://huggingface.co/datasets/davidbrandfonbrener/color-filtered-c4
English
Selecting high-quality data for pre-training is crucial in shaping the downstream task performance of language models. A major challenge lies in identifying this optimal subset, a problem generally considered intractable, thus necessitating scalable and effective heuristics. In this work, we propose a data selection method, CoLoR-Filter (Conditional Loss Reduction Filtering), which leverages an empirical Bayes-inspired approach to derive a simple and computationally efficient selection criterion based on the relative loss values of two auxiliary models. In addition to the modeling rationale, we evaluate CoLoR-Filter empirically on two language modeling tasks: (1) selecting data from C4 for domain adaptation to evaluation on Books and (2) selecting data from C4 for a suite of downstream multiple-choice question answering tasks. We demonstrate favorable scaling both as we subselect more aggressively and using small auxiliary models to select data for large target models. As one headline result, CoLoR-Filter data selected using a pair of 150m parameter auxiliary models can train a 1.2b parameter target model to match a 1.2b parameter model trained on 25b randomly selected tokens with 25x less data for Books and 11x less data for the downstream tasks. Code: https://github.com/davidbrandfonbrener/color-filter-olmo Filtered data: https://huggingface.co/datasets/davidbrandfonbrener/color-filtered-c4
PDF41February 8, 2026