OpenLID-v3: 밀접한 관련 언어 식별 정밀도 향상 – 경험 보고서
OpenLID-v3: Improving the Precision of Closely Related Language Identification -- An Experience Report
February 13, 2026
저자: Mariia Fedorova, Nikolay Arefyev, Maja Buljan, Jindřich Helcl, Stephan Oepen, Egil Rønningstad, Yves Scherrer
cs.AI
초록
언어 식별(LID)은 웹 데이터로부터 고품질 다국어 데이터셋을 구축하는 데 필수적인 단계입니다. 기존 LID 도구(OpenLID 또는 GlotLID 등)는 밀접하게 관련된 언어를 식별하고 유효한 자연어와 노이즈를 구분하는 데 종종 어려움을 겪으며, 이는 특히 저자원 언어의 경우 언어별 부분집합을 오염시킵니다. 본 연구에서는 더 많은 훈련 데이터 추가, 문제가 있는 언어 변이 클러스터 통합, 노이즈 표시를 위한 특수 레이블 도입을 통해 OpenLID 분류기를 확장합니다. 이 확장 시스템을 OpenLID-v3라고 명명하고 여러 벤치마크에서 GlotLID와 비교 평가합니다. 개발 과정에서 우리는 밀접하게 관련된 세 가지 언어 그룹(보스니아어, 크로아티아어, 세르비아어; 이탈리아 북부와 프랑스 남부의 로망스어 변이형; 스칸디나비아 언어)에 주목하며, 기존 평가 데이터셋이 부적절한 경우 새로운 평가 데이터셋을 제공합니다. 앙상블 접근법은 정밀도를 향상시키지만 저자원 언어의 경우 커버리지도 상당히 감소시킨다는 사실을 확인했습니다. OpenLID-v3는 https://huggingface.co/HPLT/OpenLID-v3에서 이용할 수 있습니다.
English
Language identification (LID) is an essential step in building high-quality multilingual datasets from web data. Existing LID tools (such as OpenLID or GlotLID) often struggle to identify closely related languages and to distinguish valid natural language from noise, which contaminates language-specific subsets, especially for low-resource languages. In this work we extend the OpenLID classifier by adding more training data, merging problematic language variant clusters, and introducing a special label for marking noise. We call this extended system OpenLID-v3 and evaluate it against GlotLID on multiple benchmarks. During development, we focus on three groups of closely related languages (Bosnian, Croatian, and Serbian; Romance varieties of Northern Italy and Southern France; and Scandinavian languages) and contribute new evaluation datasets where existing ones are inadequate. We find that ensemble approaches improve precision but also substantially reduce coverage for low-resource languages. OpenLID-v3 is available on https://huggingface.co/HPLT/OpenLID-v3.