mSFT: Het aanpakken van heterogene overfitting bij datasetmengsels in multi-task SFT

Samenvatting

Bij de huidige training van taalmodelen wordt vaak multi-task Supervised Fine-Tuning (SFT) toegepast met een homogeen rekenbudget voor alle subdatasets. Deze aanpak is fundamenteel suboptimaal: heterogene leer dynamieken zorgen ervoor dat sneller lerende taken vroegtijdig overfitten, terwijl langzamere taken onderfit blijven. Om dit aan te pakken, introduceren wij mSFT, een iteratief, overfitting-bewust zoekalgoritme voor multi-task datamengsels. mSFT traint het model op een actief mengsel, identificeert en sluit de vroegst overfittende subdataset uit, en keert terug naar het bijbehorende optimale checkpoint voordat wordt verdergegaan. Uitgebreide evaluaties tonen aan dat mSFT consistent beter presteert dan 4 baseline-methoden over 10 benchmarks en 6 basis modellen heen. Verdere analyse bevestigt dat mSFT robuuste verbeteringen handhaaft bij diverse datasetgroottes en taakgranulariteiten, en ongevoelig is voor zijn enkele nieuwe hyperparameter (rekenbudget). Opmerkelijk is dat mSFT bij een laag rekenbudget de prestaties kan verbeteren terwijl de trainings-FLOPs worden verlaagd. Uiteindelijk biedt mSFT een praktisch, overfitting-bewust algoritme voor multi-task SFT dat het potentieel van modellen over diverse datamengsels maximaliseert.

English

Current language model training commonly applies multi-task Supervised Fine-Tuning (SFT) using a homogeneous compute budget across all sub-datasets. This approach is fundamentally sub-optimal: heterogeneous learning dynamics cause faster-learning tasks to overfit early while slower ones remain under-fitted. To address this, we introduce mSFT, an iterative, overfitting-aware search algorithm for multi-task data mixtures. mSFT trains the model on an active mixture, identifies and excludes the earliest overfitting sub-dataset, and reverts to that specific optimal checkpoint before continuing. Extensive evaluations demonstrate that mSFT consistently outperforms 4 baselines across 10 benchmarks and 6 base models. Further analysis confirms mSFT maintains robust gains across diverse dataset sizes, task granularities, and is insensitive to its single new hyperparameter (compute budget). Notably, at low compute budget, mSFT can improve performance while lowering training FLOPs. Ultimately, mSFT establishes a practical overfitting-aware algorithm for multi-task SFT that maximizes the potential of models across diverse data mixtures.

mSFT: Het aanpakken van heterogene overfitting bij datasetmengsels in multi-task SFT

mSFT: Addressing Dataset Mixtures Overfiting Heterogeneously in Multi-task SFT

Samenvatting

Support