El orden importa en presencia de desequilibrio de datos para el aprendizaje multilingüe

Resumen

En este artículo, estudiamos empíricamente la dinámica de optimización del aprendizaje multitarea, centrándonos especialmente en aquellas que gobiernan un conjunto de tareas con un desequilibrio significativo en los datos. Presentamos un método simple pero efectivo que consiste en un preentrenamiento en tareas con muchos recursos, seguido de un ajuste fino en una mezcla de tareas con recursos altos/bajos. Ofrecemos un estudio empírico exhaustivo y un análisis de los beneficios de este método, demostrando que logra mejoras consistentes en relación con el perfil de compensación de rendimiento de la ponderación estática estándar. Analizamos bajo qué regímenes de datos este método es aplicable y mostramos sus mejoras empíricamente en traducción automática neuronal (NMT) y modelado de lenguaje multilingüe.

English

In this paper, we empirically study the optimization dynamics of multi-task learning, particularly focusing on those that govern a collection of tasks with significant data imbalance. We present a simple yet effective method of pre-training on high-resource tasks, followed by fine-tuning on a mixture of high/low-resource tasks. We provide a thorough empirical study and analysis of this method's benefits showing that it achieves consistent improvements relative to the performance trade-off profile of standard static weighting. We analyze under what data regimes this method is applicable and show its improvements empirically in neural machine translation (NMT) and multi-lingual language modeling.

El orden importa en presencia de desequilibrio de datos para el aprendizaje multilingüe

Order Matters in the Presence of Dataset Imbalance for Multilingual Learning

Resumen

Summary

Support

Support