Sélection prédictive des données : Les données qui prédisent sont les données qui enseignentPredictive Data Selection: The Data That Predicts Is the Data That
Teaches
Le prĂ©-entraĂźnement des modĂšles de langage implique un apprentissage sur des corpus Ă©tendus, oĂč la qualitĂ© des donnĂ©es joue un rĂŽle crucial. Dans ce travail, nous cherchons Ă estimer directement la contribution des donnĂ©es pendant le prĂ©-entraĂźnement et Ă sĂ©lectionner ces donnĂ©es de maniĂšre efficace. Plus prĂ©cisĂ©ment, nous nous inspirons de rĂ©cents rĂ©sultats montrant que l'efficacitĂ© de compression (c'est-Ă -dire la perte normalisĂ©e) de divers modĂšles sur certains textes est fortement corrĂ©lĂ©e Ă leurs performances en aval, lorsque le domaine du texte correspond au benchmark cible (Huang et al., 2024). Sur la base de cette observation, nous Ă©mettons l'hypothĂšse que les donnĂ©es pour lesquelles les pertes du modĂšle sont prĂ©dictives des capacitĂ©s en aval contribuent Ă©galement de maniĂšre efficace Ă l'apprentissage. Pour exploiter cette idĂ©e, nous introduisons une sĂ©lection de donnĂ©es basĂ©e sur la force prĂ©dictive des donnĂ©es (PreSelect), une mĂ©thode lĂ©gĂšre et efficace de sĂ©lection de donnĂ©es qui nĂ©cessite uniquement l'entraĂźnement et le dĂ©ploiement d'un scoreur basĂ© sur fastText. Ă travers des expĂ©riences approfondies avec des modĂšles de 1 milliard et 3 milliards de paramĂštres, nous dĂ©montrons que les modĂšles entraĂźnĂ©s sur 30 milliards de tokens sĂ©lectionnĂ©s avec PreSelect surpassent les performances d'un modĂšle de rĂ©fĂ©rence entraĂźnĂ© sur 300 milliards de tokens, rĂ©duisant ainsi les besoins en calcul par un facteur de 10. De plus, PreSelect surpasse significativement d'autres mĂ©thodes concurrentes de sĂ©lection de donnĂ©es, telles que DCLM et FineWeb-Edu, Ă l'Ă©chelle de modĂšles de 3 milliards de paramĂštres entraĂźnĂ©s sur 100 milliards de tokens. Nous mettons Ă disposition en open source notre scoreur de sĂ©lection de donnĂ©es entraĂźnĂ© ainsi que les ensembles de donnĂ©es curĂ©s Ă l'adresse suivante : https://github.com/hkust-nlp/PreSelect.