mSFT: Abordaje del sobreajuste heterogéneo en mezclas de conjuntos de datos durante el SFT multitarea

Resumen

El entrenamiento actual de modelos de lenguaje comúnmente aplica el Ajuste Supervisado Multitarea (SFT) utilizando un presupuesto computacional homogéneo en todos los subconjuntos de datos. Este enfoque es fundamentalmente subóptimo: las dinámicas de aprendizaje heterogéneas provocan que las tareas de aprendizaje rápido se sobreajusten tempranamente mientras que las más lentas permanecen infraajustadas. Para abordar esto, presentamos mSFT, un algoritmo de búsqueda iterativo y consciente del sobreajuste para mezclas de datos multitarea. mSFT entrena el modelo en una mezcla activa, identifica y excluye el subconjunto de datos que se sobreajusta primero, y revierte al punto de control óptimo específico antes de continuar. Evaluaciones exhaustivas demuestran que mSFT supera consistentemente a 4 métodos de referencia en 10 benchmarks y 6 modelos base. Un análisis más profundo confirma que mSFT mantiene ganancias robustas en diversos tamaños de conjuntos de datos y granularidades de tareas, y es insensible a su único nuevo hiperparámetro (presupuesto computacional). Notablemente, con un presupuesto computacional bajo, mSFT puede mejorar el rendimiento mientras reduce los FLOPS de entrenamiento. En última instancia, mSFT establece un algoritmo práctico y consciente del sobreajuste para el SFT multitarea que maximiza el potencial de los modelos en diversas mezclas de datos.

English

Current language model training commonly applies multi-task Supervised Fine-Tuning (SFT) using a homogeneous compute budget across all sub-datasets. This approach is fundamentally sub-optimal: heterogeneous learning dynamics cause faster-learning tasks to overfit early while slower ones remain under-fitted. To address this, we introduce mSFT, an iterative, overfitting-aware search algorithm for multi-task data mixtures. mSFT trains the model on an active mixture, identifies and excludes the earliest overfitting sub-dataset, and reverts to that specific optimal checkpoint before continuing. Extensive evaluations demonstrate that mSFT consistently outperforms 4 baselines across 10 benchmarks and 6 base models. Further analysis confirms mSFT maintains robust gains across diverse dataset sizes, task granularities, and is insensitive to its single new hyperparameter (compute budget). Notably, at low compute budget, mSFT can improve performance while lowering training FLOPs. Ultimately, mSFT establishes a practical overfitting-aware algorithm for multi-task SFT that maximizes the potential of models across diverse data mixtures.

mSFT: Abordaje del sobreajuste heterogéneo en mezclas de conjuntos de datos durante el SFT multitarea

mSFT: Addressing Dataset Mixtures Overfiting Heterogeneously in Multi-task SFT

Resumen

Support