ChatPaper.aiChatPaper

MaskLID: Identificación de Lenguaje en Cambio de Código mediante Enmascaramiento Iterativo

MaskLID: Code-Switching Language Identification through Iterative Masking

June 10, 2024
Autores: Amir Hossein Kargaran, François Yvon, Hinrich Schütze
cs.AI

Resumen

Presentamos MaskLID, un método simple pero efectivo para la identificación de idiomas (LID) en casos de alternancia de código (CS). MaskLID no requiere entrenamiento y está diseñado para complementar los LID de alto rendimiento a nivel de oración. Los LID a nivel de oración son clasificadores entrenados en textos monolingües para proporcionar etiquetas únicas, típicamente utilizando una capa softmax para convertir puntuaciones en probabilidades. Sin embargo, en casos donde una oración está compuesta en ambos idiomas L1 y L2, el clasificador LID a menudo solo devuelve la etiqueta dominante L1. Para abordar esta limitación, MaskLID emplea una estrategia para enmascarar las características del texto asociadas con L1, permitiendo que el LID clasifique el texto como L2 en la siguiente ronda. Este método utiliza el propio LID para identificar las características que requieren enmascaramiento y no depende de ningún recurso externo. En este trabajo, exploramos el uso de MaskLID para dos LID de código abierto (GlotLID y OpenLID), ambos basados en la arquitectura FastText. El código y la demo están disponibles en https://github.com/cisnlp/MaskLID.
English
We present MaskLID, a simple, yet effective, code-switching (CS) language identification (LID) method. MaskLID does not require any training and is designed to complement current high-performance sentence-level LIDs. Sentence-level LIDs are classifiers trained on monolingual texts to provide single labels, typically using a softmax layer to turn scores into probabilities. However, in cases where a sentence is composed in both L1 and L2 languages, the LID classifier often only returns the dominant label L1. To address this limitation, MaskLID employs a strategy to mask text features associated with L1, allowing the LID to classify the text as L2 in the next round. This method uses the LID itself to identify the features that require masking and does not rely on any external resource. In this work, we explore the use of MaskLID for two open-source LIDs (GlotLID and OpenLID), that are both based on the FastText architecture. Code and demo are available at https://github.com/cisnlp/MaskLID.

Summary

AI-Generated Summary

PDF51December 6, 2024