L'ordre compte en présence de déséquilibre de données pour l'apprentissage multilingue

Résumé

Dans cet article, nous étudions empiriquement la dynamique d'optimisation de l'apprentissage multitâche, en nous concentrant particulièrement sur celle qui régit un ensemble de tâches présentant un déséquilibre significatif des données. Nous proposons une méthode simple mais efficace consistant en un pré-entraînement sur des tâches riches en données, suivi d'un affinage sur un mélange de tâches à ressources élevées et faibles. Nous menons une étude empirique approfondie et une analyse des avantages de cette méthode, démontrant qu'elle permet d'obtenir des améliorations constantes par rapport au profil de compromis de performance des pondérations statiques standard. Nous analysons dans quels régimes de données cette méthode est applicable et montrons ses améliorations de manière empirique dans le domaine de la traduction automatique neuronale (NMT) et de la modélisation linguistique multilingue.

English

In this paper, we empirically study the optimization dynamics of multi-task learning, particularly focusing on those that govern a collection of tasks with significant data imbalance. We present a simple yet effective method of pre-training on high-resource tasks, followed by fine-tuning on a mixture of high/low-resource tasks. We provide a thorough empirical study and analysis of this method's benefits showing that it achieves consistent improvements relative to the performance trade-off profile of standard static weighting. We analyze under what data regimes this method is applicable and show its improvements empirically in neural machine translation (NMT) and multi-lingual language modeling.

L'ordre compte en présence de déséquilibre de données pour l'apprentissage multilingue

Order Matters in the Presence of Dataset Imbalance for Multilingual Learning

Résumé

Summary

Support

Support