A Ordem Importa na Presença de Desequilíbrio de Conjuntos de Dados para Aprendizado Multilíngue

Resumo

Neste artigo, estudamos empiricamente a dinâmica de otimização do aprendizado multitarefa, com foco particular naquelas que regem um conjunto de tarefas com desequilíbrio significativo de dados. Apresentamos um método simples, porém eficaz, de pré-treinamento em tarefas com muitos recursos, seguido de ajuste fino em uma mistura de tarefas com muitos/poucos recursos. Fornecemos um estudo empírico detalhado e uma análise dos benefícios desse método, mostrando que ele alcança melhorias consistentes em relação ao perfil de compensação de desempenho da ponderação estática padrão. Analisamos em quais regimes de dados esse método é aplicável e demonstramos suas melhorias empiricamente na tradução automática neural (NMT) e na modelagem de linguagem multilíngue.

English

In this paper, we empirically study the optimization dynamics of multi-task learning, particularly focusing on those that govern a collection of tasks with significant data imbalance. We present a simple yet effective method of pre-training on high-resource tasks, followed by fine-tuning on a mixture of high/low-resource tasks. We provide a thorough empirical study and analysis of this method's benefits showing that it achieves consistent improvements relative to the performance trade-off profile of standard static weighting. We analyze under what data regimes this method is applicable and show its improvements empirically in neural machine translation (NMT) and multi-lingual language modeling.

A Ordem Importa na Presença de Desequilíbrio de Conjuntos de Dados para Aprendizado Multilíngue

Order Matters in the Presence of Dataset Imbalance for Multilingual Learning

Resumo

Support