ChatPaper.aiChatPaper

CoLoR-Filter: Bedingte Verlustreduktionsfilterung für gezieltes Sprachmodell-Pretraining

CoLoR-Filter: Conditional Loss Reduction Filtering for Targeted Language Model Pre-training

June 15, 2024
Autoren: David Brandfonbrener, Hanlin Zhang, Andreas Kirsch, Jonathan Richard Schwarz, Sham Kakade
cs.AI

Zusammenfassung

Die Auswahl hochwertiger Daten für das Pre-Training ist entscheidend für die Leistung von Sprachmodellen bei nachgelagerten Aufgaben. Eine große Herausforderung besteht darin, dieses optimale Subset zu identifizieren, ein Problem, das im Allgemeinen als unlösbar angesehen wird und daher skalierbare und effektive Heuristiken erfordert. In dieser Arbeit schlagen wir eine Methode zur Datenauswahl vor, CoLoR-Filter (Conditional Loss Reduction Filtering), die einen empirisch Bayes-inspirierten Ansatz nutzt, um ein einfaches und recheneffizientes Auswahlkriterium auf der Grundlage der relativen Verlustwerte von zwei Hilfsmodellen abzuleiten. Neben der Modellierungsbegründung evaluieren wir CoLoR-Filter empirisch in zwei Sprachmodellierungsaufgaben: (1) Auswahl von Daten aus C4 für die Domänenanpassung zur Auswertung in Büchern und (2) Auswahl von Daten aus C4 für eine Reihe von nachgelagerten Multiple-Choice-Fragenbeantwortungsaufgaben. Wir zeigen eine günstige Skalierung sowohl bei aggressiverer Teilauswahl als auch bei Verwendung kleiner Hilfsmodelle zur Auswahl von Daten für große Zielmodelle. Als eine der Hauptergebnisse kann CoLoR-Filter-Daten, die mithilfe eines Paares von 150-Millionen-Parameter-Hilfsmodellen ausgewählt wurden, ein 1,2-Milliarden-Parameter-Zielmodell trainieren, um mit einem auf 25 Milliarden zufällig ausgewählten Tokens trainierten 1,2-Milliarden-Parameter-Modell mit 25-mal weniger Daten für Bücher und 11-mal weniger Daten für die nachgelagerten Aufgaben übereinzustimmen. Code: https://github.com/davidbrandfonbrener/color-filter-olmo Gefilterte Daten: https://huggingface.co/datasets/davidbrandfonbrener/color-filtered-c4
English
Selecting high-quality data for pre-training is crucial in shaping the downstream task performance of language models. A major challenge lies in identifying this optimal subset, a problem generally considered intractable, thus necessitating scalable and effective heuristics. In this work, we propose a data selection method, CoLoR-Filter (Conditional Loss Reduction Filtering), which leverages an empirical Bayes-inspired approach to derive a simple and computationally efficient selection criterion based on the relative loss values of two auxiliary models. In addition to the modeling rationale, we evaluate CoLoR-Filter empirically on two language modeling tasks: (1) selecting data from C4 for domain adaptation to evaluation on Books and (2) selecting data from C4 for a suite of downstream multiple-choice question answering tasks. We demonstrate favorable scaling both as we subselect more aggressively and using small auxiliary models to select data for large target models. As one headline result, CoLoR-Filter data selected using a pair of 150m parameter auxiliary models can train a 1.2b parameter target model to match a 1.2b parameter model trained on 25b randomly selected tokens with 25x less data for Books and 11x less data for the downstream tasks. Code: https://github.com/davidbrandfonbrener/color-filter-olmo Filtered data: https://huggingface.co/datasets/davidbrandfonbrener/color-filtered-c4

Summary

AI-Generated Summary

PDF41December 6, 2024