Selezione Predittiva dei Dati: I Dati che Predicono sono i Dati che InsegnanoPredictive Data Selection: The Data That Predicts Is the Data That
Teaches
Il pretraining dei modelli linguistici prevede l'addestramento su corpora estesi, dove la qualità dei dati svolge un ruolo cruciale. In questo lavoro, ci proponiamo di stimare direttamente il contributo dei dati durante il pretraining e di selezionare i dati di pretraining in modo efficiente. In particolare, traiamo ispirazione da recenti scoperte che dimostrano come l'efficienza di compressione (ovvero la perdita normalizzata) di vari modelli su determinati testi sia fortemente correlata alle loro prestazioni downstream, quando il dominio del testo è allineato con il benchmark downstream (Huang et al., 2024). Basandoci su questa osservazione, ipotizziamo che i dati su cui le perdite del modello sono predittive delle capacità downstream contribuiscano efficacemente all'apprendimento. Per sfruttare questa intuizione, introduciamo la selezione dei dati basata sulla forza predittiva dei dati (PreSelect), un metodo leggero ed efficiente per la selezione dei dati che richiede l'addestramento e il dispiegamento di un solo valutatore basato su fastText. Attraverso esperimenti approfonditi con modelli da 1B e 3B parametri, dimostriamo che i modelli addestrati su 30B token selezionati con PreSelect superano le prestazioni di una baseline standard addestrata su 300B token, ottenendo una riduzione di 10x nei requisiti computazionali. Inoltre, PreSelect supera significativamente altre baseline competitive per la selezione dei dati, come DCLM e FineWeb-Edu, su una scala di modelli da 3B addestrati su 100B token. Rendiamo disponibile il nostro valutatore per la selezione dei dati addestrato insieme ai dataset curati all'indirizzo https://github.com/hkust-nlp/PreSelect.