R&B: Domeinhergroepering en Data-mixbalancering voor Efficiënte Training van Fundamentmodellen
R&B: Domain Regrouping and Data Mixture Balancing for Efficient Foundation Model Training
May 1, 2025
Auteurs: Albert Ge, Tzu-Heng Huang, John Cooper, Avi Trost, Ziyi Chu, Satya Sai Srinath Namburi GNVV, Ziyang Cai, Kendall Park, Nicholas Roberts, Frederic Sala
cs.AI
Samenvatting
Data mixing-strategieën hebben de kosten voor het trainen van taalmodelleen succesvol verlaagd. Hoewel veelbelovend, hebben dergelijke methoden twee tekortkomingen. Ten eerste vertrouwen ze op vooraf bepaalde datadomeinen (bijvoorbeeld databronnen, taaktypen), die mogelijk cruciale semantische nuances missen, wat ten koste gaat van de prestaties. Ten tweede schalen deze methoden met het aantal domeinen op een computationeel onhoudbare manier. Wij pakken deze uitdagingen aan via R&B, een framework dat trainingsdata opnieuw indeelt op basis van semantische gelijkenis (Regroup) om fijnmazigere domeinen te creëren, en de datasamenstelling efficiënt optimaliseert (Balance) door gebruik te maken van een Gram-matrix die wordt gegenereerd door domeingradiënten die tijdens het trainen worden verkregen. In tegenstelling tot eerdere werken, elimineert het de noodzaak voor extra rekenkracht om evaluatie-informatie zoals verliezen of gradiënten te verkrijgen. We analyseren deze techniek onder standaard regelmatigheidsvoorwaarden en bieden theoretische inzichten die de effectiviteit van R&B rechtvaardigen in vergelijking met niet-adaptieve mixing-benaderingen. Empirisch demonstreren we de effectiviteit van R&B op vijf diverse datasets, variërend van natuurlijke taal tot redeneren en multimodale taken. Met slechts 0,01% extra rekenoverhead matcht of overtreft R&B de prestaties van state-of-the-art data mixing-strategieën.
English
Data mixing strategies have successfully reduced the costs involved in
training language models. While promising, such methods suffer from two flaws.
First, they rely on predetermined data domains (e.g., data sources, task
types), which may fail to capture critical semantic nuances, leaving
performance on the table. Second, these methods scale with the number of
domains in a computationally prohibitive way. We address these challenges via
R&B, a framework that re-partitions training data based on semantic similarity
(Regroup) to create finer-grained domains, and efficiently optimizes the data
composition (Balance) by leveraging a Gram matrix induced by domain gradients
obtained throughout training. Unlike prior works, it removes the need for
additional compute to obtain evaluation information such as losses or
gradients. We analyze this technique under standard regularity conditions and
provide theoretical insights that justify R&B's effectiveness compared to
non-adaptive mixing approaches. Empirically, we demonstrate the effectiveness
of R&B on five diverse datasets ranging from natural language to reasoning and
multimodal tasks. With as little as 0.01% additional compute overhead, R&B
matches or exceeds the performance of state-of-the-art data mixing strategies.