CoLoR-Filter: Bedingte Verlustreduktionsfilterung für gezieltes Sprachmodell-Pretraining
CoLoR-Filter: Conditional Loss Reduction Filtering for Targeted Language Model Pre-training
June 15, 2024
Autoren: David Brandfonbrener, Hanlin Zhang, Andreas Kirsch, Jonathan Richard Schwarz, Sham Kakade
cs.AI
Zusammenfassung
Die Auswahl hochwertiger Daten für das Pre-Training ist entscheidend für die Leistung von Sprachmodellen bei nachgelagerten Aufgaben. Eine große Herausforderung besteht darin, dieses optimale Subset zu identifizieren, ein Problem, das im Allgemeinen als unlösbar angesehen wird und daher skalierbare und effektive Heuristiken erfordert. In dieser Arbeit schlagen wir eine Methode zur Datenauswahl vor, CoLoR-Filter (Conditional Loss Reduction Filtering), die einen empirisch Bayes-inspirierten Ansatz nutzt, um ein einfaches und recheneffizientes Auswahlkriterium auf der Grundlage der relativen Verlustwerte von zwei Hilfsmodellen abzuleiten.
Neben der Modellierungsbegründung evaluieren wir CoLoR-Filter empirisch in zwei Sprachmodellierungsaufgaben: (1) Auswahl von Daten aus C4 für die Domänenanpassung zur Auswertung in Büchern und (2) Auswahl von Daten aus C4 für eine Reihe von nachgelagerten Multiple-Choice-Fragenbeantwortungsaufgaben. Wir zeigen eine günstige Skalierung sowohl bei aggressiverer Teilauswahl als auch bei Verwendung kleiner Hilfsmodelle zur Auswahl von Daten für große Zielmodelle. Als eine der Hauptergebnisse kann CoLoR-Filter-Daten, die mithilfe eines Paares von 150-Millionen-Parameter-Hilfsmodellen ausgewählt wurden, ein 1,2-Milliarden-Parameter-Zielmodell trainieren, um mit einem auf 25 Milliarden zufällig ausgewählten Tokens trainierten 1,2-Milliarden-Parameter-Modell mit 25-mal weniger Daten für Bücher und 11-mal weniger Daten für die nachgelagerten Aufgaben übereinzustimmen.
Code: https://github.com/davidbrandfonbrener/color-filter-olmo
Gefilterte Daten: https://huggingface.co/datasets/davidbrandfonbrener/color-filtered-c4
English
Selecting high-quality data for pre-training is crucial in shaping the
downstream task performance of language models. A major challenge lies in
identifying this optimal subset, a problem generally considered intractable,
thus necessitating scalable and effective heuristics. In this work, we propose
a data selection method, CoLoR-Filter (Conditional Loss Reduction Filtering),
which leverages an empirical Bayes-inspired approach to derive a simple and
computationally efficient selection criterion based on the relative loss values
of two auxiliary models.
In addition to the modeling rationale, we evaluate CoLoR-Filter empirically
on two language modeling tasks: (1) selecting data from C4 for domain
adaptation to evaluation on Books and (2) selecting data from C4 for a suite of
downstream multiple-choice question answering tasks. We demonstrate favorable
scaling both as we subselect more aggressively and using small auxiliary models
to select data for large target models. As one headline result, CoLoR-Filter
data selected using a pair of 150m parameter auxiliary models can train a 1.2b
parameter target model to match a 1.2b parameter model trained on 25b randomly
selected tokens with 25x less data for Books and 11x less data for the
downstream tasks.
Code: https://github.com/davidbrandfonbrener/color-filter-olmo
Filtered data:
https://huggingface.co/datasets/davidbrandfonbrener/color-filtered-c4Summary
AI-Generated Summary