Predictieve Dataselectie: De Data Die Voorspelt, Is de Data Die LeertPredictive Data Selection: The Data That Predicts Is the Data That
Teaches
Taalmodelpretraining omvat training op uitgebreide corpora, waarbij de kwaliteit van de data een cruciale rol speelt. In dit werk streven we ernaar om de bijdrage van data tijdens de pretraining direct te schatten en de pretrainingdata op een efficiënte manier te selecteren. Specifiek putten we inspiratie uit recente bevindingen die aantonen dat de compressie-efficiëntie (d.w.z. het genormaliseerde verlies) van diverse modellen op bepaalde tekst sterk correleert met hun prestaties op downstream taken, wanneer het tekstdomein overeenkomt met de downstream benchmark (Huang et al., 2024). Op basis van deze observatie stellen we de hypothese dat data waarop modelverliezen voorspellend zijn voor downstream vaardigheden, ook effectief bijdragen aan het leerproces. Om dit inzicht te benutten, introduceren we dataselectie gebaseerd op de voorspellende kracht van data (PreSelect), een lichtgewicht en efficiënte methode voor dataselectie die alleen het trainen en inzetten van een fastText-gebaseerde scorer vereist. Door uitgebreide experimenten met modellen van 1B en 3B parameters, tonen we aan dat modellen getraind op 30B tokens geselecteerd met PreSelect de prestaties overtreffen van een standaard baseline getraind op 300B tokens, wat resulteert in een 10x reductie in rekenvereisten. Bovendien presteert PreSelect aanzienlijk beter dan andere competitieve dataselectie-baselines, zoals DCLM en FineWeb-Edu, op een schaal van 3B modellen getraind op 100B tokens. We maken onze getrainde dataselectie-scorer samen met de samengestelde datasets openbaar op https://github.com/hkust-nlp/PreSelect.