ChatPaper.aiChatPaper

Machinevertaling met beperkte middelen vanuit het perspectief van gepersonaliseerd federatief leren

Low-Resource Machine Translation through the Lens of Personalized Federated Learning

June 18, 2024
Auteurs: Viktor Moskvoretskii, Nazarii Tupitsa, Chris Biemann, Samuel Horváth, Eduard Gorbunov, Irina Nikishina
cs.AI

Samenvatting

We presenteren een nieuwe aanpak gebaseerd op het Personalized Federated Learning-algoritme MeritFed, dat kan worden toegepast op Natural Language Tasks met heterogene data. We evalueren het op de taak van Low-Resource Machine Translation, waarbij we gebruikmaken van de dataset van de Large-Scale Multilingual Machine Translation Shared Task (Small Track #2) en de subset van Sami-talen uit de meertalige benchmark voor Fins-Oegrische talen. Naast de effectiviteit is MeritFed ook zeer interpreteerbaar, omdat het kan worden gebruikt om de impact van elke taal die voor training wordt gebruikt te volgen. Onze analyse toont aan dat de grootte van de doeldataset de gewichtsverdeling over hulptalen beïnvloedt, dat niet-verwante talen de training niet verstoren, en dat parameters van de hulpoptimizer een minimale impact hebben. Onze aanpak is eenvoudig toe te passen met een paar regels code, en we bieden scripts voor het reproduceren van de experimenten op https://github.com/VityaVitalich/MeritFed.
English
We present a new approach based on the Personalized Federated Learning algorithm MeritFed that can be applied to Natural Language Tasks with heterogeneous data. We evaluate it on the Low-Resource Machine Translation task, using the dataset from the Large-Scale Multilingual Machine Translation Shared Task (Small Track #2) and the subset of Sami languages from the multilingual benchmark for Finno-Ugric languages. In addition to its effectiveness, MeritFed is also highly interpretable, as it can be applied to track the impact of each language used for training. Our analysis reveals that target dataset size affects weight distribution across auxiliary languages, that unrelated languages do not interfere with the training, and auxiliary optimizer parameters have minimal impact. Our approach is easy to apply with a few lines of code, and we provide scripts for reproducing the experiments at https://github.com/VityaVitalich/MeritFed
PDF31November 29, 2024