mSFT: Adressierung heterogener Überanpassung an Datensatzgemische im Multi-Task SFT

Zusammenfassung

Bei der aktuellen Training von Sprachmodellen wird häufig eine multi-task Supervised Fine-Tuning (SFT) Methode angewendet, die ein homogenes Rechenbudget über alle Teil-Datensätze hinweg verteilt. Dieser Ansatz ist grundsätzlich suboptimal: heterogene Lern-Dynamiken führen dazu, dass sich schnell lernende Aufgaben frühzeitig überanpassen, während langsam lernende unterangepasst bleiben. Um dieses Problem zu adressieren, stellen wir mSFT vor – einen iterativen, überanpassungsbewussten Suchalgorithmus für Multi-Task-Datenmischungen. mSFT trainiert das Modell auf einer aktiven Mischung, identifiziert und entfernt den am frühesten überanpassenden Teil-Datensatz und kehrt zu dem entsprechenden optimalen Checkpoint zurück, bevor es fortfährt. Umfangreiche Auswertungen zeigen, dass mSFT durchgängig 4 Baseline-Methoden auf 10 Benchmarks und 6 Basismodellen übertrifft. Weitere Analysen bestätigen, dass mSFT robuste Verbesserungen über verschiedene Datensatzgrößen und Aufgaben-Granularitäten hinweg beibehält und unempfindlich gegenüber seinem einzigen neuen Hyperparameter (Rechenbudget) ist. Bemerkenswerterweise kann mSFT bei niedrigem Rechenbudget die Leistung verbessern und gleichzeitig die Trainings-FLOPs verringern. Letztendlich etabliert mSFT einen praktischen, überanpassungsbewussten Algorithmus für Multi-Task-SFT, der das Potenzial von Modellen über verschiedene Datenmischungen hinweg maximiert.

English

Current language model training commonly applies multi-task Supervised Fine-Tuning (SFT) using a homogeneous compute budget across all sub-datasets. This approach is fundamentally sub-optimal: heterogeneous learning dynamics cause faster-learning tasks to overfit early while slower ones remain under-fitted. To address this, we introduce mSFT, an iterative, overfitting-aware search algorithm for multi-task data mixtures. mSFT trains the model on an active mixture, identifies and excludes the earliest overfitting sub-dataset, and reverts to that specific optimal checkpoint before continuing. Extensive evaluations demonstrate that mSFT consistently outperforms 4 baselines across 10 benchmarks and 6 base models. Further analysis confirms mSFT maintains robust gains across diverse dataset sizes, task granularities, and is insensitive to its single new hyperparameter (compute budget). Notably, at low compute budget, mSFT can improve performance while lowering training FLOPs. Ultimately, mSFT establishes a practical overfitting-aware algorithm for multi-task SFT that maximizes the potential of models across diverse data mixtures.

mSFT: Adressierung heterogener Überanpassung an Datensatzgemische im Multi-Task SFT

mSFT: Addressing Dataset Mixtures Overfiting Heterogeneously in Multi-task SFT

Zusammenfassung

Support