OpenLID-v3: Verbesserung der Präzision bei der Identifikation eng verwandter Sprachen – Ein Erfahrungsbericht
OpenLID-v3: Improving the Precision of Closely Related Language Identification -- An Experience Report
February 13, 2026
papers.authors: Mariia Fedorova, Nikolay Arefyev, Maja Buljan, Jindřich Helcl, Stephan Oepen, Egil Rønningstad, Yves Scherrer
cs.AI
papers.abstract
Die Sprachidentifikation (Language Identification, LID) ist ein wesentlicher Schritt bei der Erstellung hochwertiger multilingualer Datensätze aus Webdaten. Bestehende LID-Tools (wie OpenLID oder GlotLID) haben oft Schwierigkeiten, eng verwandte Sprachen zu identifizieren und gültige natürliche Sprache von Rauschen zu unterscheiden, was die sprachspezifischen Teilmengen verunreinigt, insbesondere für niedrigressourcierte Sprachen. In dieser Arbeit erweitern wir den OpenLID-Klassifikator, indem wir mehr Trainingsdaten hinzufügen, problematische Sprachvarianten-Cluster zusammenführen und eine spezielle Kennzeichnung für Rauschen einführen. Wir nennen dieses erweiterte System OpenLID-v3 und evaluieren es im Vergleich zu GlotLID anhand mehrerer Benchmarks. Während der Entwicklung konzentrieren wir uns auf drei Gruppen eng verwandter Sprachen (Bosnisch, Kroatisch und Serbisch; romanische Varietätens Norditaliens und Südfrankreichs; und skandinavische Sprachen) und tragen neue Evaluierungsdatensätze bei, wo bestehende unzureichend sind. Wir stellen fest, dass Ensemble-Ansätze die Präzision verbessern, aber auch die Abdeckung für niedrigressourcierte Sprachen erheblich reduzieren. OpenLID-v3 ist verfügbar unter https://huggingface.co/HPLT/OpenLID-v3.
English
Language identification (LID) is an essential step in building high-quality multilingual datasets from web data. Existing LID tools (such as OpenLID or GlotLID) often struggle to identify closely related languages and to distinguish valid natural language from noise, which contaminates language-specific subsets, especially for low-resource languages. In this work we extend the OpenLID classifier by adding more training data, merging problematic language variant clusters, and introducing a special label for marking noise. We call this extended system OpenLID-v3 and evaluate it against GlotLID on multiple benchmarks. During development, we focus on three groups of closely related languages (Bosnian, Croatian, and Serbian; Romance varieties of Northern Italy and Southern France; and Scandinavian languages) and contribute new evaluation datasets where existing ones are inadequate. We find that ensemble approaches improve precision but also substantially reduce coverage for low-resource languages. OpenLID-v3 is available on https://huggingface.co/HPLT/OpenLID-v3.