mSFT: Abordando a Sobreadaptação Heterogênea a Misturas de Conjuntos de Dados no Ajuste Fino Multitarefa

Resumo

O treinamento atual de modelos de linguagem aplica comumente o Ajuste Fino Supervisionado (SFS) multitarefa utilizando um orçamento computacional homogéneo em todos os subconjuntos de dados. Esta abordagem é fundamentalmente subótima: dinâmicas de aprendizagem heterogéneas fazem com que tarefas de aprendizagem rápida sofram sobreajuste precoce, enquanto as mais lentas permanecem subajustadas. Para resolver isto, introduzimos o mSFT, um algoritmo de busca iterativo e consciente do sobreajuste para misturas de dados multitarefa. O mSFT treina o modelo numa mistura ativa, identifica e exclui o subconjunto de dados que sobreajusta mais cedo, e reverte para o *checkpoint* ótimo específico antes de continuar. Avaliações extensivas demonstram que o mSFT supera consistentemente 4 *baselines* em 10 *benchmarks* e 6 modelos base. Análises adicionais confirmam que o mSFT mantém ganhos robustos em diversos tamanhos de conjuntos de dados e granularidades de tarefas, sendo insensível ao seu único novo hiperparâmetro (orçamento computacional). Notavelmente, com um orçamento computacional baixo, o mSFT pode melhorar o desempenho enquanto reduz os FLOPS de treinamento. Em última análise, o mSFT estabelece um algoritmo prático e consciente do sobreajuste para o SFS multitarefa que maximiza o potencial dos modelos em diversas misturas de dados.

English

Current language model training commonly applies multi-task Supervised Fine-Tuning (SFT) using a homogeneous compute budget across all sub-datasets. This approach is fundamentally sub-optimal: heterogeneous learning dynamics cause faster-learning tasks to overfit early while slower ones remain under-fitted. To address this, we introduce mSFT, an iterative, overfitting-aware search algorithm for multi-task data mixtures. mSFT trains the model on an active mixture, identifies and excludes the earliest overfitting sub-dataset, and reverts to that specific optimal checkpoint before continuing. Extensive evaluations demonstrate that mSFT consistently outperforms 4 baselines across 10 benchmarks and 6 base models. Further analysis confirms mSFT maintains robust gains across diverse dataset sizes, task granularities, and is insensitive to its single new hyperparameter (compute budget). Notably, at low compute budget, mSFT can improve performance while lowering training FLOPs. Ultimately, mSFT establishes a practical overfitting-aware algorithm for multi-task SFT that maximizes the potential of models across diverse data mixtures.

mSFT: Abordando a Sobreadaptação Heterogênea a Misturas de Conjuntos de Dados no Ajuste Fino Multitarefa

mSFT: Addressing Dataset Mixtures Overfiting Heterogeneously in Multi-task SFT

Resumo

Support