ChatPaper.aiChatPaper

Маскирование: идентификация смешанного языка с переключением кода через итеративное маскирование

MaskLID: Code-Switching Language Identification through Iterative Masking

June 10, 2024
Авторы: Amir Hossein Kargaran, François Yvon, Hinrich Schütze
cs.AI

Аннотация

Мы представляем MaskLID - простой, но эффективный метод идентификации языка с переключением кода (CS). MaskLID не требует обучения и разработан для дополнения текущих высокопроизводительных методов идентификации языка на уровне предложения. Методы идентификации языка на уровне предложения - это классификаторы, обученные на одноязычных текстах для предоставления одиночных меток, обычно используя слой softmax для преобразования оценок в вероятности. Однако в случаях, когда предложение составлено на двух языках L1 и L2, классификатор идентификации языка часто возвращает только доминирующую метку L1. Для решения этого ограничения MaskLID использует стратегию маскировки текстовых признаков, связанных с L1, позволяя классификатору идентификации языка классифицировать текст как L2 на следующем этапе. Этот метод использует сам классификатор идентификации языка для определения признаков, требующих маскировки, и не зависит от внешних ресурсов. В данной работе мы исследуем применение MaskLID для двух открытых методов идентификации языка (GlotLID и OpenLID), которые оба основаны на архитектуре FastText. Код и демонстрация доступны по ссылке https://github.com/cisnlp/MaskLID.
English
We present MaskLID, a simple, yet effective, code-switching (CS) language identification (LID) method. MaskLID does not require any training and is designed to complement current high-performance sentence-level LIDs. Sentence-level LIDs are classifiers trained on monolingual texts to provide single labels, typically using a softmax layer to turn scores into probabilities. However, in cases where a sentence is composed in both L1 and L2 languages, the LID classifier often only returns the dominant label L1. To address this limitation, MaskLID employs a strategy to mask text features associated with L1, allowing the LID to classify the text as L2 in the next round. This method uses the LID itself to identify the features that require masking and does not rely on any external resource. In this work, we explore the use of MaskLID for two open-source LIDs (GlotLID and OpenLID), that are both based on the FastText architecture. Code and demo are available at https://github.com/cisnlp/MaskLID.

Summary

AI-Generated Summary

PDF51December 6, 2024