ChatPaper.aiChatPaper

MaskLID : Identification de langue en alternance codique par masquage itératif

MaskLID: Code-Switching Language Identification through Iterative Masking

June 10, 2024
Auteurs: Amir Hossein Kargaran, François Yvon, Hinrich Schütze
cs.AI

Résumé

Nous présentons MaskLID, une méthode simple mais efficace pour l'identification des langues (LID) dans le contexte de l'alternance codique (CS). MaskLID ne nécessite aucun apprentissage et est conçu pour compléter les systèmes de LID actuels performants au niveau de la phrase. Les systèmes de LID au niveau de la phrase sont des classificateurs entraînés sur des textes monolingues pour fournir des étiquettes uniques, utilisant généralement une couche softmax pour transformer les scores en probabilités. Cependant, dans les cas où une phrase est composée à la fois en langues L1 et L2, le classificateur LID ne retourne souvent que l'étiquette dominante L1. Pour pallier cette limitation, MaskLID emploie une stratégie consistant à masquer les caractéristiques textuelles associées à L1, permettant ainsi au LID de classer le texte comme L2 dans l'étape suivante. Cette méthode utilise le LID lui-même pour identifier les caractéristiques à masquer et ne repose sur aucune ressource externe. Dans ce travail, nous explorons l'utilisation de MaskLID pour deux systèmes de LID open-source (GlotLID et OpenLID), tous deux basés sur l'architecture FastText. Le code et une démonstration sont disponibles à l'adresse https://github.com/cisnlp/MaskLID.
English
We present MaskLID, a simple, yet effective, code-switching (CS) language identification (LID) method. MaskLID does not require any training and is designed to complement current high-performance sentence-level LIDs. Sentence-level LIDs are classifiers trained on monolingual texts to provide single labels, typically using a softmax layer to turn scores into probabilities. However, in cases where a sentence is composed in both L1 and L2 languages, the LID classifier often only returns the dominant label L1. To address this limitation, MaskLID employs a strategy to mask text features associated with L1, allowing the LID to classify the text as L2 in the next round. This method uses the LID itself to identify the features that require masking and does not rely on any external resource. In this work, we explore the use of MaskLID for two open-source LIDs (GlotLID and OpenLID), that are both based on the FastText architecture. Code and demo are available at https://github.com/cisnlp/MaskLID.

Summary

AI-Generated Summary

PDF51December 6, 2024