El orden importa en presencia de desequilibrio de datos para el aprendizaje multilingüe
Order Matters in the Presence of Dataset Imbalance for Multilingual Learning
December 11, 2023
Autores: Dami Choi, Derrick Xin, Hamid Dadkhahi, Justin Gilmer, Ankush Garg, Orhan Firat, Chih-Kuan Yeh, Andrew M. Dai, Behrooz Ghorbani
cs.AI
Resumen
En este artículo, estudiamos empíricamente la dinámica de optimización del aprendizaje multitarea, centrándonos especialmente en aquellas que gobiernan un conjunto de tareas con un desequilibrio significativo en los datos. Presentamos un método simple pero efectivo que consiste en un preentrenamiento en tareas con muchos recursos, seguido de un ajuste fino en una mezcla de tareas con recursos altos/bajos. Ofrecemos un estudio empírico exhaustivo y un análisis de los beneficios de este método, demostrando que logra mejoras consistentes en relación con el perfil de compensación de rendimiento de la ponderación estática estándar. Analizamos bajo qué regímenes de datos este método es aplicable y mostramos sus mejoras empíricamente en traducción automática neuronal (NMT) y modelado de lenguaje multilingüe.
English
In this paper, we empirically study the optimization dynamics of multi-task
learning, particularly focusing on those that govern a collection of tasks with
significant data imbalance. We present a simple yet effective method of
pre-training on high-resource tasks, followed by fine-tuning on a mixture of
high/low-resource tasks. We provide a thorough empirical study and analysis of
this method's benefits showing that it achieves consistent improvements
relative to the performance trade-off profile of standard static weighting. We
analyze under what data regimes this method is applicable and show its
improvements empirically in neural machine translation (NMT) and multi-lingual
language modeling.Summary
AI-Generated Summary