CLIMB: Bootstrapping Iterativo di Miscelazione Dati basato su Clustering per il Pre-addestramento di Modelli LinguisticiCLIMB: CLustering-based Iterative Data Mixture Bootstrapping for
Language Model Pre-training
I dataset di pre-training sono tipicamente raccolti da contenuti web e mancano di divisioni intrinseche per dominio. Ad esempio, dataset ampiamente utilizzati come Common Crawl non includono etichette esplicite per dominio, mentre la creazione manuale di dataset etichettati come The Pile è un processo laborioso. Di conseguenza, identificare una miscela ottimale di dati per il pre-training rimane un problema complesso, nonostante i suoi significativi benefici per le prestazioni del pre-training. Per affrontare queste sfide, proponiamo CLustering-based Iterative Data Mixture Bootstrapping (CLIMB), un framework automatizzato che scopre, valuta e affina le miscele di dati in un contesto di pre-training. Nello specifico, CLIMB incorpora e raggruppa dataset su larga scala in uno spazio semantico, per poi cercare iterativamente miscele ottimali utilizzando un modello proxy più piccolo e un predittore. Quando addestrato continuamente su 400 miliardi di token con questa miscela, il nostro modello da 1 miliardo supera lo stato dell'arte Llama-3.2-1B del 2,0%. Inoltre, osserviamo che l'ottimizzazione per un dominio specifico (ad esempio, Scienze Sociali) produce un miglioramento del 5% rispetto al campionamento casuale. Infine, introduciamo ClimbLab, un corpus filtrato da 1,2 trilioni di token con 20 cluster come ambiente di ricerca, e ClimbMix, un dataset compatto ma potente da 400 miliardi di token progettato per un pre-training efficiente che offre prestazioni superiori con un budget di token equivalente. Analizziamo la miscela finale di dati, chiarendo le caratteristiche di una miscela ottimale. I nostri dati sono disponibili all'indirizzo: https://research.nvidia.com/labs/lpr/climb/