MaskLID: Identifizierung von Codeswitching-Sprachen durch iterative Maskierung
MaskLID: Code-Switching Language Identification through Iterative Masking
June 10, 2024
Autoren: Amir Hossein Kargaran, François Yvon, Hinrich Schütze
cs.AI
Zusammenfassung
Wir präsentieren MaskLID, eine einfache, aber effektive Methode zur Erkennung von Codeswitching (CS) Sprachen (LID). MaskLID erfordert kein Training und ist darauf ausgelegt, aktuelle leistungsstarke LID-Methoden auf Satzebene zu ergänzen. LID-Methoden auf Satzebene sind Klassifizierer, die auf monolingualen Texten trainiert sind, um einzelne Labels bereitzustellen, typischerweise unter Verwendung einer Softmax-Schicht, um Punkte in Wahrscheinlichkeiten umzuwandeln. In Fällen, in denen ein Satz in beiden L1- und L2-Sprachen verfasst ist, gibt der LID-Klassifizierer oft nur das dominante Label L1 zurück. Um diese Einschränkung zu überwinden, verwendet MaskLID eine Strategie, um Textmerkmale, die mit L1 verbunden sind, zu maskieren, sodass der LID den Text in der nächsten Runde als L2 klassifizieren kann. Diese Methode nutzt den LID selbst, um die Merkmale zu identifizieren, die maskiert werden müssen, und ist nicht auf externe Ressourcen angewiesen. In dieser Arbeit untersuchen wir die Verwendung von MaskLID für zwei Open-Source LIDs (GlotLID und OpenLID), die beide auf der FastText-Architektur basieren. Der Code und eine Demo sind verfügbar unter https://github.com/cisnlp/MaskLID.
English
We present MaskLID, a simple, yet effective, code-switching (CS) language
identification (LID) method. MaskLID does not require any training and is
designed to complement current high-performance sentence-level LIDs.
Sentence-level LIDs are classifiers trained on monolingual texts to provide
single labels, typically using a softmax layer to turn scores into
probabilities. However, in cases where a sentence is composed in both L1 and L2
languages, the LID classifier often only returns the dominant label L1. To
address this limitation, MaskLID employs a strategy to mask text features
associated with L1, allowing the LID to classify the text as L2 in the next
round. This method uses the LID itself to identify the features that require
masking and does not rely on any external resource. In this work, we explore
the use of MaskLID for two open-source LIDs (GlotLID and OpenLID), that are
both based on the FastText architecture. Code and demo are available at
https://github.com/cisnlp/MaskLID.Summary
AI-Generated Summary