CoLoR-Filter: Conditionele Verliesreductie Filtering voor Gerichte Taalmodel Pre-training
CoLoR-Filter: Conditional Loss Reduction Filtering for Targeted Language Model Pre-training
June 15, 2024
Auteurs: David Brandfonbrener, Hanlin Zhang, Andreas Kirsch, Jonathan Richard Schwarz, Sham Kakade
cs.AI
Samenvatting
Het selecteren van hoogwaardige gegevens voor pre-training is cruciaal voor het bepalen van de prestaties van taalmodelen bij downstream taken. Een grote uitdaging ligt in het identificeren van deze optimale subset, een probleem dat over het algemeen als onoplosbaar wordt beschouwd, waardoor schaalbare en effectieve heuristieken noodzakelijk zijn. In dit werk stellen we een methode voor gegevensselectie voor, CoLoR-Filter (Conditional Loss Reduction Filtering), die gebruikmaakt van een empirische Bayes-geïnspireerde aanpak om een eenvoudig en computationeel efficiënt selectiecriterium af te leiden op basis van de relatieve verlieswaarden van twee hulpmodelle.
Naast de modelleringsredenering evalueren we CoLoR-Filter empirisch op twee taalmodelleertaken: (1) het selecteren van gegevens uit C4 voor domeinaanpassing aan evaluatie op Books en (2) het selecteren van gegevens uit C4 voor een reeks downstream meerkeuzevraag-antwoordtaken. We tonen gunstige schaalbaarheid aan, zowel wanneer we agressiever subselecteren als wanneer we kleine hulpmodelle gebruiken om gegevens te selecteren voor grote doelmodelle. Als een belangrijk resultaat kan CoLoR-Filter-gegevens, geselecteerd met behulp van een paar hulpmodelle van 150 miljoen parameters, een doelmodel van 1,2 miljard parameters trainen om een model van 1,2 miljard parameters te evenaren dat is getraind op 25 miljard willekeurig geselecteerde tokens, met 25x minder gegevens voor Books en 11x minder gegevens voor de downstream taken.
Code: https://github.com/davidbrandfonbrener/color-filter-olmo
Gefilterde gegevens: https://huggingface.co/datasets/davidbrandfonbrener/color-filtered-c4
English
Selecting high-quality data for pre-training is crucial in shaping the
downstream task performance of language models. A major challenge lies in
identifying this optimal subset, a problem generally considered intractable,
thus necessitating scalable and effective heuristics. In this work, we propose
a data selection method, CoLoR-Filter (Conditional Loss Reduction Filtering),
which leverages an empirical Bayes-inspired approach to derive a simple and
computationally efficient selection criterion based on the relative loss values
of two auxiliary models.
In addition to the modeling rationale, we evaluate CoLoR-Filter empirically
on two language modeling tasks: (1) selecting data from C4 for domain
adaptation to evaluation on Books and (2) selecting data from C4 for a suite of
downstream multiple-choice question answering tasks. We demonstrate favorable
scaling both as we subselect more aggressively and using small auxiliary models
to select data for large target models. As one headline result, CoLoR-Filter
data selected using a pair of 150m parameter auxiliary models can train a 1.2b
parameter target model to match a 1.2b parameter model trained on 25b randomly
selected tokens with 25x less data for Books and 11x less data for the
downstream tasks.
Code: https://github.com/davidbrandfonbrener/color-filter-olmo
Filtered data:
https://huggingface.co/datasets/davidbrandfonbrener/color-filtered-c4