ChatPaper.aiChatPaper

OpenLID-v3:近縁言語識別の高精度化に向けて -- 経験報告

OpenLID-v3: Improving the Precision of Closely Related Language Identification -- An Experience Report

February 13, 2026
著者: Mariia Fedorova, Nikolay Arefyev, Maja Buljan, Jindřich Helcl, Stephan Oepen, Egil Rønningstad, Yves Scherrer
cs.AI

要旨

言語識別(LID)は、ウェブデータから高品質な多言語データセットを構築する上で不可欠な工程である。既存のLIDツール(OpenLIDやGlotLIDなど)は、近縁言語の識別や、有効な自然言語とノイズの区分に課題を抱えることが多く、特に低リソース言語において言語別サブセットの汚染を招いている。本研究では、OpenLID分類器を拡張し、より多くの訓練データの追加、問題のある言語変種クラスタの統合、ノイズをマークするための特殊ラベルの導入を行った。この拡張システムをOpenLID-v3と称し、複数のベンチマークでGlotLIDと比較評価する。開発過程では、3つの近縁言語群(ボスニア語、クロアチア語、セルビア語;北イタリア及び南フランスのロマンス諸語変種;スカンディナビア諸語)に焦点を当て、既存データセットが不十分な場合に新たな評価データセットを構築した。アンサンブル手法は精度向上に寄与するが、低リソース言語のカバレッジを大幅に減少させることも確認された。OpenLID-v3はhttps://huggingface.co/HPLT/OpenLID-v3 で公開されている。
English
Language identification (LID) is an essential step in building high-quality multilingual datasets from web data. Existing LID tools (such as OpenLID or GlotLID) often struggle to identify closely related languages and to distinguish valid natural language from noise, which contaminates language-specific subsets, especially for low-resource languages. In this work we extend the OpenLID classifier by adding more training data, merging problematic language variant clusters, and introducing a special label for marking noise. We call this extended system OpenLID-v3 and evaluate it against GlotLID on multiple benchmarks. During development, we focus on three groups of closely related languages (Bosnian, Croatian, and Serbian; Romance varieties of Northern Italy and Southern France; and Scandinavian languages) and contribute new evaluation datasets where existing ones are inadequate. We find that ensemble approaches improve precision but also substantially reduce coverage for low-resource languages. OpenLID-v3 is available on https://huggingface.co/HPLT/OpenLID-v3.
PDF02February 17, 2026