mSFT: Affrontare l'Overfitting Eterogeneo nelle Miscele di Dataset nel SFT Multi-task

Abstract

L'addestramento corrente dei modelli linguistici applica comunemente un fine-tuning supervisionato (SFT) multi-task utilizzando un budget computazionale omogeneo su tutti i sotto-dataset. Questo approccio è fondamentalmente sub-ottimale: dinamiche di apprendimento eterogenee causano una sovradattamento precoce dei task a apprendimento più rapido, mentre quelli più lenti rimangono sotto-addestrati. Per affrontare questo problema, introduciamo mSFT, un algoritmo di ricerca iterativo e consapevole del sovradattamento per miscele di dati multi-task. mSFT addestra il modello su una miscela attiva, identifica ed esclude il sotto-dataset che va per primo in sovradattamento, e ritorna al checkpoint ottimale specifico prima di proseguire. Valutazioni estensive dimostrano che mSFT supera costantemente 4 baseline su 10 benchmark e 6 modelli base. Ulteriori analisi confermano che mSFT mantiene robusti miglioramenti su diverse dimensioni dei dataset, granularità dei task, ed è insensibile al suo unico nuovo iperparametro (budget computazionale). Notevolmente, con un budget computazionale ridotto, mSFT può migliorare le prestazioni riducendo allo stesso tempo i FLOPs di addestramento. In definitiva, mSFT stabilisce un algoritmo pratico e consapevole del sovradattamento per l'SFT multi-task che massimizza il potenziale dei modelli su diverse miscele di dati.

English

Current language model training commonly applies multi-task Supervised Fine-Tuning (SFT) using a homogeneous compute budget across all sub-datasets. This approach is fundamentally sub-optimal: heterogeneous learning dynamics cause faster-learning tasks to overfit early while slower ones remain under-fitted. To address this, we introduce mSFT, an iterative, overfitting-aware search algorithm for multi-task data mixtures. mSFT trains the model on an active mixture, identifies and excludes the earliest overfitting sub-dataset, and reverts to that specific optimal checkpoint before continuing. Extensive evaluations demonstrate that mSFT consistently outperforms 4 baselines across 10 benchmarks and 6 base models. Further analysis confirms mSFT maintains robust gains across diverse dataset sizes, task granularities, and is insensitive to its single new hyperparameter (compute budget). Notably, at low compute budget, mSFT can improve performance while lowering training FLOPs. Ultimately, mSFT establishes a practical overfitting-aware algorithm for multi-task SFT that maximizes the potential of models across diverse data mixtures.

mSFT: Affrontare l'Overfitting Eterogeneo nelle Miscele di Dataset nel SFT Multi-task

mSFT: Addressing Dataset Mixtures Overfiting Heterogeneously in Multi-task SFT

Abstract

Support