mSFT: Преодоление неоднородного переобучения на смесях наборов данных при многозадачном SFT

Аннотация

Современное обучение языковых моделей обычно применяет многозадачную тонкую настройку с учителем (SFT) с использованием однородных вычислительных ресурсов для всех подвыборок данных. Этот подход является принципиально неоптимальным: из-за неоднородной динамики обучения быстрее обучающиеся задачи преждевременно переобучаются, тогда как более медленные остаются недообученными. Для решения этой проблемы мы представляем mSFT — итеративный алгоритм поиска смесей данных для многозадачного обучения, учитывающий переобучение. mSFT обучает модель на активной смеси, идентифицирует и исключает наиболее рано переобучающуюся подвыборку, возвращаясь к её конкретному оптимальному контрольному пункту перед продолжением обучения. Многочисленные оценки демонстрируют, что mSFT стабильно превосходит 4 базовых метода на 10 тестовых наборах и 6 базовых моделях. Дальнейший анализ подтверждает, что mSFT сохраняет устойчивое преимущество при различных размерах наборов данных, гранулярности задач и нечувствителен к своему единственному новому гиперпараметру (вычислительному бюджету). Примечательно, что при малом вычислительном бюджете mSFT способен улучшить производительность, одновременно снижая количество FLOPs обучения. В итоге, mSFT представляет собой практический алгоритм многозадачной SFT, учитывающий переобучение, который максимизирует потенциал моделей на разнообразных смесях данных.

English

Current language model training commonly applies multi-task Supervised Fine-Tuning (SFT) using a homogeneous compute budget across all sub-datasets. This approach is fundamentally sub-optimal: heterogeneous learning dynamics cause faster-learning tasks to overfit early while slower ones remain under-fitted. To address this, we introduce mSFT, an iterative, overfitting-aware search algorithm for multi-task data mixtures. mSFT trains the model on an active mixture, identifies and excludes the earliest overfitting sub-dataset, and reverts to that specific optimal checkpoint before continuing. Extensive evaluations demonstrate that mSFT consistently outperforms 4 baselines across 10 benchmarks and 6 base models. Further analysis confirms mSFT maintains robust gains across diverse dataset sizes, task granularities, and is insensitive to its single new hyperparameter (compute budget). Notably, at low compute budget, mSFT can improve performance while lowering training FLOPs. Ultimately, mSFT establishes a practical overfitting-aware algorithm for multi-task SFT that maximizes the potential of models across diverse data mixtures.

mSFT: Преодоление неоднородного переобучения на смесях наборов данных при многозадачном SFT

mSFT: Addressing Dataset Mixtures Overfiting Heterogeneously in Multi-task SFT

Аннотация

Support