ChatPaper.aiChatPaper

Miscelazione dei Dati Resa Efficiente: Una Legge di Scalabilità Bivariata per il Pretraining dei Modelli Linguistici

Data Mixing Made Efficient: A Bivariate Scaling Law for Language Model Pretraining

May 23, 2024
Autori: Ce Ge, Zhijian Ma, Daoyuan Chen, Yaliang Li, Bolin Ding
cs.AI

Abstract

I grandi modelli linguistici dimostrano capacità di generalizzazione eccezionali, attribuibili principalmente all'utilizzo di dati provenienti da fonti diversificate. Tuttavia, le pratiche convenzionali per integrare questi dati eterogenei si basano fortemente su schemi euristici, privi di una guida teorica. Questa ricerca affronta tali limitazioni esplorando strategie basate su proxy a basso costo per le miscele di dati, con l'obiettivo di semplificare la cura dei dati per migliorare l'efficienza dell'addestramento. Nello specifico, proponiamo una legge di scala unificata, denominata BiMix, che modella accuratamente i comportamenti di scala bivariati sia della quantità di dati che delle proporzioni di miscelazione. Condividiamo esperimenti sistematici e forniamo evidenze empiriche del potere predittivo e dei principi fondamentali di BiMix. In particolare, i nostri risultati rivelano che miscele di dati guidate dall'entropia e prive di addestramento possono ottenere prestazioni comparabili o addirittura migliori rispetto a metodi più dispendiosi in termini di risorse. Speriamo che le nostre intuizioni quantitative possano illuminare ulteriori ricerche e sviluppi giudiziosi nella modellazione linguistica economicamente vantaggiosa.
English
Large language models exhibit exceptional generalization capabilities, primarily attributed to the utilization of diversely sourced data. However, conventional practices in integrating this diverse data heavily rely on heuristic schemes, lacking theoretical guidance. This research tackles these limitations by investigating strategies based on low-cost proxies for data mixtures, with the aim of streamlining data curation to enhance training efficiency. Specifically, we propose a unified scaling law, termed BiMix, which accurately models the bivariate scaling behaviors of both data quantity and mixing proportions. We conduct systematic experiments and provide empirical evidence for the predictive power and fundamental principles of BiMix. Notably, our findings reveal that entropy-driven training-free data mixtures can achieve comparable or even better performance than more resource-intensive methods. We hope that our quantitative insights can shed light on further judicious research and development in cost-effective language modeling.
PDF150February 8, 2026