L'ordine è importante in presenza di squilibrio del dataset per l'apprendimento multilingue
Order Matters in the Presence of Dataset Imbalance for Multilingual Learning
December 11, 2023
Autori: Dami Choi, Derrick Xin, Hamid Dadkhahi, Justin Gilmer, Ankush Garg, Orhan Firat, Chih-Kuan Yeh, Andrew M. Dai, Behrooz Ghorbani
cs.AI
Abstract
In questo articolo, studiamo empiricamente le dinamiche di ottimizzazione dell'apprendimento multi-task, concentrandoci in particolare su quelle che governano una raccolta di task con uno squilibrio significativo nei dati. Presentiamo un metodo semplice ma efficace di pre-addestramento su task ad alta disponibilità di dati, seguito da un affinamento su una miscela di task ad alta/bassa disponibilità di dati. Forniamo uno studio empirico approfondito e un'analisi dei vantaggi di questo metodo, dimostrando che esso raggiunge miglioramenti consistenti rispetto al profilo di compromesso delle prestazioni del classico approccio di ponderazione statica. Analizziamo in quali regimi di dati questo metodo è applicabile e ne dimostriamo i miglioramenti empiricamente nella traduzione automatica neurale (NMT) e nella modellazione del linguaggio multilingue.
English
In this paper, we empirically study the optimization dynamics of multi-task
learning, particularly focusing on those that govern a collection of tasks with
significant data imbalance. We present a simple yet effective method of
pre-training on high-resource tasks, followed by fine-tuning on a mixture of
high/low-resource tasks. We provide a thorough empirical study and analysis of
this method's benefits showing that it achieves consistent improvements
relative to the performance trade-off profile of standard static weighting. We
analyze under what data regimes this method is applicable and show its
improvements empirically in neural machine translation (NMT) and multi-lingual
language modeling.