Die Reihenfolge spielt eine Rolle bei der Anwesenheit von Datenungleichgewichten im multilingualen Lernen
Order Matters in the Presence of Dataset Imbalance for Multilingual Learning
December 11, 2023
Autoren: Dami Choi, Derrick Xin, Hamid Dadkhahi, Justin Gilmer, Ankush Garg, Orhan Firat, Chih-Kuan Yeh, Andrew M. Dai, Behrooz Ghorbani
cs.AI
Zusammenfassung
In dieser Arbeit untersuchen wir empirisch die Optimierungsdynamik des Multi-Task-Lernens, mit einem besonderen Fokus auf diejenigen, die eine Sammlung von Aufgaben mit erheblichem Datenungleichgewicht steuern. Wir stellen eine einfache, aber effektive Methode vor, die ein Pre-Training auf ressourcenstarken Aufgaben gefolgt von einem Fine-Tuning auf einer Mischung aus ressourcenstarken und ressourcenschwachen Aufgaben umfasst. Wir bieten eine umfassende empirische Studie und Analyse der Vorteile dieser Methode und zeigen, dass sie im Vergleich zum Leistungskompromissprofil der standardmäßigen statischen Gewichtung konsistente Verbesserungen erzielt. Wir analysieren, unter welchen Datenregimen diese Methode anwendbar ist, und zeigen ihre Verbesserungen empirisch in der neuronalen maschinellen Übersetzung (NMT) und im mehrsprachigen Sprachmodellieren.
English
In this paper, we empirically study the optimization dynamics of multi-task
learning, particularly focusing on those that govern a collection of tasks with
significant data imbalance. We present a simple yet effective method of
pre-training on high-resource tasks, followed by fine-tuning on a mixture of
high/low-resource tasks. We provide a thorough empirical study and analysis of
this method's benefits showing that it achieves consistent improvements
relative to the performance trade-off profile of standard static weighting. We
analyze under what data regimes this method is applicable and show its
improvements empirically in neural machine translation (NMT) and multi-lingual
language modeling.Summary
AI-Generated Summary