L'ordre compte en présence de déséquilibre de données pour l'apprentissage multilingue
Order Matters in the Presence of Dataset Imbalance for Multilingual Learning
December 11, 2023
Auteurs: Dami Choi, Derrick Xin, Hamid Dadkhahi, Justin Gilmer, Ankush Garg, Orhan Firat, Chih-Kuan Yeh, Andrew M. Dai, Behrooz Ghorbani
cs.AI
Résumé
Dans cet article, nous étudions empiriquement la dynamique d'optimisation de l'apprentissage multitâche, en nous concentrant particulièrement sur celle qui régit un ensemble de tâches présentant un déséquilibre significatif des données. Nous proposons une méthode simple mais efficace consistant en un pré-entraînement sur des tâches riches en données, suivi d'un affinage sur un mélange de tâches à ressources élevées et faibles. Nous menons une étude empirique approfondie et une analyse des avantages de cette méthode, démontrant qu'elle permet d'obtenir des améliorations constantes par rapport au profil de compromis de performance des pondérations statiques standard. Nous analysons dans quels régimes de données cette méthode est applicable et montrons ses améliorations de manière empirique dans le domaine de la traduction automatique neuronale (NMT) et de la modélisation linguistique multilingue.
English
In this paper, we empirically study the optimization dynamics of multi-task
learning, particularly focusing on those that govern a collection of tasks with
significant data imbalance. We present a simple yet effective method of
pre-training on high-resource tasks, followed by fine-tuning on a mixture of
high/low-resource tasks. We provide a thorough empirical study and analysis of
this method's benefits showing that it achieves consistent improvements
relative to the performance trade-off profile of standard static weighting. We
analyze under what data regimes this method is applicable and show its
improvements empirically in neural machine translation (NMT) and multi-lingual
language modeling.Summary
AI-Generated Summary