MaskLID: Identificação de Idioma em Code-Switching por meio de Mascaramento Iterativo
MaskLID: Code-Switching Language Identification through Iterative Masking
June 10, 2024
Autores: Amir Hossein Kargaran, François Yvon, Hinrich Schütze
cs.AI
Resumo
Apresentamos o MaskLID, um método simples, porém eficaz, para identificação de idiomas (LID) em situações de code-switching (CS). O MaskLID não requer nenhum treinamento e foi projetado para complementar os atuais LIDs de alto desempenho em nível de sentença. LIDs em nível de sentença são classificadores treinados em textos monolíngues para fornecer rótulos únicos, geralmente utilizando uma camada softmax para transformar pontuações em probabilidades. No entanto, em casos onde uma sentença é composta em ambos os idiomas L1 e L2, o classificador LID frequentemente retorna apenas o rótulo dominante L1. Para abordar essa limitação, o MaskLID emprega uma estratégia para mascarar as características do texto associadas ao L1, permitindo que o LID classifique o texto como L2 na próxima rodada. Este método utiliza o próprio LID para identificar as características que precisam ser mascaradas e não depende de nenhum recurso externo. Neste trabalho, exploramos o uso do MaskLID para dois LIDs de código aberto (GlotLID e OpenLID), ambos baseados na arquitetura FastText. O código e uma demonstração estão disponíveis em https://github.com/cisnlp/MaskLID.
English
We present MaskLID, a simple, yet effective, code-switching (CS) language
identification (LID) method. MaskLID does not require any training and is
designed to complement current high-performance sentence-level LIDs.
Sentence-level LIDs are classifiers trained on monolingual texts to provide
single labels, typically using a softmax layer to turn scores into
probabilities. However, in cases where a sentence is composed in both L1 and L2
languages, the LID classifier often only returns the dominant label L1. To
address this limitation, MaskLID employs a strategy to mask text features
associated with L1, allowing the LID to classify the text as L2 in the next
round. This method uses the LID itself to identify the features that require
masking and does not rely on any external resource. In this work, we explore
the use of MaskLID for two open-source LIDs (GlotLID and OpenLID), that are
both based on the FastText architecture. Code and demo are available at
https://github.com/cisnlp/MaskLID.