ChatPaper.aiChatPaper

R&B: Regrupamento de Domínios e Balanceamento de Mistura de Dados para Treinamento Eficiente de Modelos de Base

R&B: Domain Regrouping and Data Mixture Balancing for Efficient Foundation Model Training

May 1, 2025
Autores: Albert Ge, Tzu-Heng Huang, John Cooper, Avi Trost, Ziyi Chu, Satya Sai Srinath Namburi GNVV, Ziyang Cai, Kendall Park, Nicholas Roberts, Frederic Sala
cs.AI

Resumo

Estratégias de mistura de dados têm reduzido com sucesso os custos envolvidos no treinamento de modelos de linguagem. Embora promissoras, tais métodos apresentam duas falhas. Primeiro, eles dependem de domínios de dados predeterminados (por exemplo, fontes de dados, tipos de tarefas), o que pode falhar em capturar nuances semânticas críticas, deixando desempenho potencialmente inexplorado. Segundo, esses métodos escalam com o número de domínios de uma forma computacionalmente proibitiva. Nós abordamos esses desafios por meio do R&B, um framework que reparticiona os dados de treinamento com base na similaridade semântica (Regroup) para criar domínios mais refinados e otimiza eficientemente a composição dos dados (Balance) ao aproveitar uma matriz de Gram induzida pelos gradientes de domínio obtidos durante o treinamento. Diferente de trabalhos anteriores, ele elimina a necessidade de computação adicional para obter informações de avaliação, como perdas ou gradientes. Analisamos essa técnica sob condições de regularidade padrão e fornecemos insights teóricos que justificam a eficácia do R&B em comparação com abordagens de mistura não adaptativas. Empiricamente, demonstramos a eficácia do R&B em cinco conjuntos de dados diversos, variando de linguagem natural a tarefas de raciocínio e multimodais. Com apenas 0,01% de sobrecarga computacional adicional, o R&B iguala ou supera o desempenho das estratégias de mistura de dados mais avançadas.
English
Data mixing strategies have successfully reduced the costs involved in training language models. While promising, such methods suffer from two flaws. First, they rely on predetermined data domains (e.g., data sources, task types), which may fail to capture critical semantic nuances, leaving performance on the table. Second, these methods scale with the number of domains in a computationally prohibitive way. We address these challenges via R&B, a framework that re-partitions training data based on semantic similarity (Regroup) to create finer-grained domains, and efficiently optimizes the data composition (Balance) by leveraging a Gram matrix induced by domain gradients obtained throughout training. Unlike prior works, it removes the need for additional compute to obtain evaluation information such as losses or gradients. We analyze this technique under standard regularity conditions and provide theoretical insights that justify R&B's effectiveness compared to non-adaptive mixing approaches. Empirically, we demonstrate the effectiveness of R&B on five diverse datasets ranging from natural language to reasoning and multimodal tasks. With as little as 0.01% additional compute overhead, R&B matches or exceeds the performance of state-of-the-art data mixing strategies.
PDF261May 8, 2025