Die Reihenfolge spielt eine Rolle bei der Anwesenheit von Datenungleichgewichten im multilingualen Lernen

Zusammenfassung

In dieser Arbeit untersuchen wir empirisch die Optimierungsdynamik des Multi-Task-Lernens, mit einem besonderen Fokus auf diejenigen, die eine Sammlung von Aufgaben mit erheblichem Datenungleichgewicht steuern. Wir stellen eine einfache, aber effektive Methode vor, die ein Pre-Training auf ressourcenstarken Aufgaben gefolgt von einem Fine-Tuning auf einer Mischung aus ressourcenstarken und ressourcenschwachen Aufgaben umfasst. Wir bieten eine umfassende empirische Studie und Analyse der Vorteile dieser Methode und zeigen, dass sie im Vergleich zum Leistungskompromissprofil der standardmäßigen statischen Gewichtung konsistente Verbesserungen erzielt. Wir analysieren, unter welchen Datenregimen diese Methode anwendbar ist, und zeigen ihre Verbesserungen empirisch in der neuronalen maschinellen Übersetzung (NMT) und im mehrsprachigen Sprachmodellieren.

English

In this paper, we empirically study the optimization dynamics of multi-task learning, particularly focusing on those that govern a collection of tasks with significant data imbalance. We present a simple yet effective method of pre-training on high-resource tasks, followed by fine-tuning on a mixture of high/low-resource tasks. We provide a thorough empirical study and analysis of this method's benefits showing that it achieves consistent improvements relative to the performance trade-off profile of standard static weighting. We analyze under what data regimes this method is applicable and show its improvements empirically in neural machine translation (NMT) and multi-lingual language modeling.

Die Reihenfolge spielt eine Rolle bei der Anwesenheit von Datenungleichgewichten im multilingualen Lernen

Order Matters in the Presence of Dataset Imbalance for Multilingual Learning

Zusammenfassung

Summary

Support

Support