ChatPaper.aiChatPaper

Traduzione Automatica a Risorse Limitate attraverso la Prospettiva dell'Apprendimento Federato Personalizzato

Low-Resource Machine Translation through the Lens of Personalized Federated Learning

June 18, 2024
Autori: Viktor Moskvoretskii, Nazarii Tupitsa, Chris Biemann, Samuel Horváth, Eduard Gorbunov, Irina Nikishina
cs.AI

Abstract

Presentiamo un nuovo approccio basato sull'algoritmo di Apprendimento Federato Personalizzato MeritFed, che può essere applicato a compiti di elaborazione del linguaggio naturale con dati eterogenei. Lo valutiamo sul compito di Traduzione Automatica a Risorse Limitare, utilizzando il dataset della Large-Scale Multilingual Machine Translation Shared Task (Small Track #2) e il sottoinsieme delle lingue Sami del benchmark multilingue per le lingue ugrofinniche. Oltre alla sua efficacia, MeritFed è altamente interpretabile, poiché può essere applicato per tracciare l'impatto di ciascuna lingua utilizzata per l'addestramento. La nostra analisi rivela che la dimensione del dataset target influisce sulla distribuzione dei pesi tra le lingue ausiliarie, che le lingue non correlate non interferiscono con l'addestramento e che i parametri ausiliari dell'ottimizzatore hanno un impatto minimo. Il nostro approccio è facile da applicare con poche righe di codice e forniamo script per riprodurre gli esperimenti all'indirizzo https://github.com/VityaVitalich/MeritFed.
English
We present a new approach based on the Personalized Federated Learning algorithm MeritFed that can be applied to Natural Language Tasks with heterogeneous data. We evaluate it on the Low-Resource Machine Translation task, using the dataset from the Large-Scale Multilingual Machine Translation Shared Task (Small Track #2) and the subset of Sami languages from the multilingual benchmark for Finno-Ugric languages. In addition to its effectiveness, MeritFed is also highly interpretable, as it can be applied to track the impact of each language used for training. Our analysis reveals that target dataset size affects weight distribution across auxiliary languages, that unrelated languages do not interfere with the training, and auxiliary optimizer parameters have minimal impact. Our approach is easy to apply with a few lines of code, and we provide scripts for reproducing the experiments at https://github.com/VityaVitalich/MeritFed
PDF31November 29, 2024