mSFT : Résoudre le problème de sur-apprentissage hétérogène des mélanges de jeux de données dans l'ajustement fin supervisé multi-tâches

Résumé

L'entraînement actuel des modèles de langage applique couramment un réglage fin supervisé (SFT) multi-tâches en utilisant un budget de calcul homogène sur tous les sous-ensembles de données. Cette approche est fondamentalement sous-optimale : des dynamiques d'apprentissage hétérogènes entraînent une surspécialisation précoce des tâches à apprentissage rapide, tandis que les tâches plus lentes restent sous-adaptées. Pour résoudre ce problème, nous présentons mSFT, un algorithme de recherche itératif et conscient de la surspécialisation pour les mélanges de données multi-tâches. mSFT entraîne le modèle sur un mélange actif, identifie et exclut le sous-ensemble de données qui surspécialise le plus tôt, puis revient au point de contrôle optimal spécifique avant de continuer. Des évaluations approfondies démontrent que mSFT surpasse systématiquement 4 méthodes de référence sur 10 benchmarks et 6 modèles de base. Une analyse plus poussée confirme que mSFT maintient des gains robustes quelles que soient la taille des ensembles de données, la granularité des tâches, et est insensible à son unique nouvel hyperparamètre (le budget de calcul). Fait notable, avec un faible budget de calcul, mSFT peut améliorer les performances tout en réduisant les FLOPs d'entraînement. En définitive, mSFT établit un algorithme pratique et conscient de la surspécialisation pour le SFT multi-tâches, maximisant le potentiel des modèles sur divers mélanges de données.

English

Current language model training commonly applies multi-task Supervised Fine-Tuning (SFT) using a homogeneous compute budget across all sub-datasets. This approach is fundamentally sub-optimal: heterogeneous learning dynamics cause faster-learning tasks to overfit early while slower ones remain under-fitted. To address this, we introduce mSFT, an iterative, overfitting-aware search algorithm for multi-task data mixtures. mSFT trains the model on an active mixture, identifies and excludes the earliest overfitting sub-dataset, and reverts to that specific optimal checkpoint before continuing. Extensive evaluations demonstrate that mSFT consistently outperforms 4 baselines across 10 benchmarks and 6 base models. Further analysis confirms mSFT maintains robust gains across diverse dataset sizes, task granularities, and is insensitive to its single new hyperparameter (compute budget). Notably, at low compute budget, mSFT can improve performance while lowering training FLOPs. Ultimately, mSFT establishes a practical overfitting-aware algorithm for multi-task SFT that maximizes the potential of models across diverse data mixtures.

mSFT : Résoudre le problème de sur-apprentissage hétérogène des mélanges de jeux de données dans l'ajustement fin supervisé multi-tâches

mSFT: Addressing Dataset Mixtures Overfiting Heterogeneously in Multi-task SFT

Résumé

Support