A Ordem Importa na Presença de Desequilíbrio de Conjuntos de Dados para Aprendizado Multilíngue
Order Matters in the Presence of Dataset Imbalance for Multilingual Learning
December 11, 2023
Autores: Dami Choi, Derrick Xin, Hamid Dadkhahi, Justin Gilmer, Ankush Garg, Orhan Firat, Chih-Kuan Yeh, Andrew M. Dai, Behrooz Ghorbani
cs.AI
Resumo
Neste artigo, estudamos empiricamente a dinâmica de otimização do aprendizado multitarefa, com foco particular naquelas que regem um conjunto de tarefas com desequilíbrio significativo de dados. Apresentamos um método simples, porém eficaz, de pré-treinamento em tarefas com muitos recursos, seguido de ajuste fino em uma mistura de tarefas com muitos/poucos recursos. Fornecemos um estudo empírico detalhado e uma análise dos benefícios desse método, mostrando que ele alcança melhorias consistentes em relação ao perfil de compensação de desempenho da ponderação estática padrão. Analisamos em quais regimes de dados esse método é aplicável e demonstramos suas melhorias empiricamente na tradução automática neural (NMT) e na modelagem de linguagem multilíngue.
English
In this paper, we empirically study the optimization dynamics of multi-task
learning, particularly focusing on those that govern a collection of tasks with
significant data imbalance. We present a simple yet effective method of
pre-training on high-resource tasks, followed by fine-tuning on a mixture of
high/low-resource tasks. We provide a thorough empirical study and analysis of
this method's benefits showing that it achieves consistent improvements
relative to the performance trade-off profile of standard static weighting. We
analyze under what data regimes this method is applicable and show its
improvements empirically in neural machine translation (NMT) and multi-lingual
language modeling.