MaskLID: Taalidentificatie bij Code-Switching door Iteratief Maskeren
MaskLID: Code-Switching Language Identification through Iterative Masking
June 10, 2024
Auteurs: Amir Hossein Kargaran, François Yvon, Hinrich Schütze
cs.AI
Samenvatting
We presenteren MaskLID, een eenvoudige maar effectieve methode voor taalidentificatie (LID) bij codewisseling (CS). MaskLID vereist geen training en is ontworpen om huidige hoogpresterende LID's op zinsniveau aan te vullen. LID's op zinsniveau zijn classificatoren die getraind zijn op eentalige teksten om enkele labels te leveren, waarbij typisch een softmax-laag wordt gebruikt om scores om te zetten in waarschijnlijkheden. In gevallen waarin een zin echter is samengesteld in zowel L1- als L2-talen, retourneert de LID-classificatie vaak alleen het dominante label L1. Om deze beperking aan te pakken, gebruikt MaskLID een strategie om tekstkenmerken die geassocieerd zijn met L1 te maskeren, waardoor de LID de tekst in de volgende ronde als L2 kan classificeren. Deze methode gebruikt de LID zelf om de kenmerken te identificeren die gemaskeerd moeten worden en is niet afhankelijk van externe bronnen. In dit werk onderzoeken we het gebruik van MaskLID voor twee open-source LID's (GlotLID en OpenLID), die beide gebaseerd zijn op de FastText-architectuur. Code en een demo zijn beschikbaar op https://github.com/cisnlp/MaskLID.
English
We present MaskLID, a simple, yet effective, code-switching (CS) language
identification (LID) method. MaskLID does not require any training and is
designed to complement current high-performance sentence-level LIDs.
Sentence-level LIDs are classifiers trained on monolingual texts to provide
single labels, typically using a softmax layer to turn scores into
probabilities. However, in cases where a sentence is composed in both L1 and L2
languages, the LID classifier often only returns the dominant label L1. To
address this limitation, MaskLID employs a strategy to mask text features
associated with L1, allowing the LID to classify the text as L2 in the next
round. This method uses the LID itself to identify the features that require
masking and does not rely on any external resource. In this work, we explore
the use of MaskLID for two open-source LIDs (GlotLID and OpenLID), that are
both based on the FastText architecture. Code and demo are available at
https://github.com/cisnlp/MaskLID.