ChatPaper.aiChatPaper

R&B: Raggruppamento di Dominio e Bilanciamento della Miscela di Dati per un Addestramento Efficiente dei Modelli di Base

R&B: Domain Regrouping and Data Mixture Balancing for Efficient Foundation Model Training

May 1, 2025
Autori: Albert Ge, Tzu-Heng Huang, John Cooper, Avi Trost, Ziyi Chu, Satya Sai Srinath Namburi GNVV, Ziyang Cai, Kendall Park, Nicholas Roberts, Frederic Sala
cs.AI

Abstract

Le strategie di miscelazione dei dati hanno ridotto con successo i costi associati all'addestramento di modelli linguistici. Sebbene promettenti, tali metodi presentano due difetti. In primo luogo, si basano su domini di dati predeterminati (ad esempio, fonti di dati, tipi di attività), che potrebbero non catturare sfumature semantiche critiche, lasciando potenziale prestazionale inespresso. In secondo luogo, questi metodi scalano con il numero di domini in modo computazionalmente proibitivo. Affrontiamo queste sfide tramite R&B, un framework che ripartiziona i dati di addestramento in base alla similarità semantica (Regroup) per creare domini più granulari e ottimizza in modo efficiente la composizione dei dati (Balance) sfruttando una matrice Gram indotta dai gradienti di dominio ottenuti durante l'addestramento. A differenza dei lavori precedenti, elimina la necessità di calcoli aggiuntivi per ottenere informazioni di valutazione come perdite o gradienti. Analizziamo questa tecnica in condizioni di regolarità standard e forniamo intuizioni teoriche che giustificano l'efficacia di R&B rispetto agli approcci di miscelazione non adattivi. Empiricamente, dimostriamo l'efficacia di R&B su cinque dataset diversificati, che spaziano dal linguaggio naturale a compiti di ragionamento e multimodali. Con un overhead computazionale aggiuntivo di appena lo 0,01%, R&B eguaglia o supera le prestazioni delle strategie di miscelazione dei dati all'avanguardia.
English
Data mixing strategies have successfully reduced the costs involved in training language models. While promising, such methods suffer from two flaws. First, they rely on predetermined data domains (e.g., data sources, task types), which may fail to capture critical semantic nuances, leaving performance on the table. Second, these methods scale with the number of domains in a computationally prohibitive way. We address these challenges via R&B, a framework that re-partitions training data based on semantic similarity (Regroup) to create finer-grained domains, and efficiently optimizes the data composition (Balance) by leveraging a Gram matrix induced by domain gradients obtained throughout training. Unlike prior works, it removes the need for additional compute to obtain evaluation information such as losses or gradients. We analyze this technique under standard regularity conditions and provide theoretical insights that justify R&B's effectiveness compared to non-adaptive mixing approaches. Empirically, we demonstrate the effectiveness of R&B on five diverse datasets ranging from natural language to reasoning and multimodal tasks. With as little as 0.01% additional compute overhead, R&B matches or exceeds the performance of state-of-the-art data mixing strategies.
PDF261May 8, 2025