L'ordine è importante in presenza di squilibrio del dataset per l'apprendimento multilingue

Abstract

In questo articolo, studiamo empiricamente le dinamiche di ottimizzazione dell'apprendimento multi-task, concentrandoci in particolare su quelle che governano una raccolta di task con uno squilibrio significativo nei dati. Presentiamo un metodo semplice ma efficace di pre-addestramento su task ad alta disponibilità di dati, seguito da un affinamento su una miscela di task ad alta/bassa disponibilità di dati. Forniamo uno studio empirico approfondito e un'analisi dei vantaggi di questo metodo, dimostrando che esso raggiunge miglioramenti consistenti rispetto al profilo di compromesso delle prestazioni del classico approccio di ponderazione statica. Analizziamo in quali regimi di dati questo metodo è applicabile e ne dimostriamo i miglioramenti empiricamente nella traduzione automatica neurale (NMT) e nella modellazione del linguaggio multilingue.

English

In this paper, we empirically study the optimization dynamics of multi-task learning, particularly focusing on those that govern a collection of tasks with significant data imbalance. We present a simple yet effective method of pre-training on high-resource tasks, followed by fine-tuning on a mixture of high/low-resource tasks. We provide a thorough empirical study and analysis of this method's benefits showing that it achieves consistent improvements relative to the performance trade-off profile of standard static weighting. We analyze under what data regimes this method is applicable and show its improvements empirically in neural machine translation (NMT) and multi-lingual language modeling.

L'ordine è importante in presenza di squilibrio del dataset per l'apprendimento multilingue

Order Matters in the Presence of Dataset Imbalance for Multilingual Learning

Abstract

Support