Traducción automática de bajos recursos a través de la perspectiva del aprendizaje federado personalizado

Resumen

Presentamos un nuevo enfoque basado en el algoritmo de Aprendizaje Federado Personalizado MeritFed, que puede aplicarse a tareas de Procesamiento de Lenguaje Natural con datos heterogéneos. Lo evaluamos en la tarea de Traducción Automática de Bajos Recursos, utilizando el conjunto de datos de la Tarea Compartida de Traducción Automática Multilingüe a Gran Escala (Small Track #2) y el subconjunto de lenguas sami del benchmark multilingüe para lenguas fino-ugrias. Además de su eficacia, MeritFed también es altamente interpretable, ya que puede aplicarse para rastrear el impacto de cada idioma utilizado en el entrenamiento. Nuestro análisis revela que el tamaño del conjunto de datos objetivo afecta la distribución de pesos entre los idiomas auxiliares, que los idiomas no relacionados no interfieren con el entrenamiento, y que los parámetros auxiliares del optimizador tienen un impacto mínimo. Nuestro enfoque es fácil de aplicar con unas pocas líneas de código, y proporcionamos scripts para reproducir los experimentos en https://github.com/VityaVitalich/MeritFed.

English

We present a new approach based on the Personalized Federated Learning algorithm MeritFed that can be applied to Natural Language Tasks with heterogeneous data. We evaluate it on the Low-Resource Machine Translation task, using the dataset from the Large-Scale Multilingual Machine Translation Shared Task (Small Track #2) and the subset of Sami languages from the multilingual benchmark for Finno-Ugric languages. In addition to its effectiveness, MeritFed is also highly interpretable, as it can be applied to track the impact of each language used for training. Our analysis reveals that target dataset size affects weight distribution across auxiliary languages, that unrelated languages do not interfere with the training, and auxiliary optimizer parameters have minimal impact. Our approach is easy to apply with a few lines of code, and we provide scripts for reproducing the experiments at https://github.com/VityaVitalich/MeritFed

Traducción automática de bajos recursos a través de la perspectiva del aprendizaje federado personalizado

Low-Resource Machine Translation through the Lens of Personalized Federated Learning

Resumen

Support