OpenLID-v3 : Amélioration de la précision de l'identification de langues étroitement apparentées -- Rapport d'expérience

Résumé

L'identification linguistique (LID) est une étape essentielle dans la construction de jeux de données multilingues de haute qualité à partir de données web. Les outils de LID existants (tels qu'OpenLID ou GlotLID) peinent souvent à identifier les langues étroitement apparentées et à distinguer un langage naturel valide du bruit, ce qui contamine les sous-ensembles spécifiques à une langue, en particulier pour les langues peu dotées. Dans ce travail, nous étendons le classifieur OpenLID en ajoutant davantage de données d'apprentissage, en fusionnant des clusters de variantes linguistiques problématiques et en introduisant une étiquette spéciale pour marquer le bruit. Nous nommons ce système étendu OpenLID-v3 et l'évaluons contre GlotLID sur plusieurs benchmarks. Lors du développement, nous nous concentrons sur trois groupes de langues étroitement apparentées (bosniaque, croate et serbe ; variétés romanes du nord de l'Italie et du sud de la France ; et langues scandinaves) et contribuons par de nouveaux jeux de données d'évaluation lorsque les existants sont inadéquats. Nous constatons que les approches par ensemble améliorent la précision mais réduisent aussi substantiellement la couverture pour les langues peu dotées. OpenLID-v3 est disponible sur https://huggingface.co/HPLT/OpenLID-v3.

English

Language identification (LID) is an essential step in building high-quality multilingual datasets from web data. Existing LID tools (such as OpenLID or GlotLID) often struggle to identify closely related languages and to distinguish valid natural language from noise, which contaminates language-specific subsets, especially for low-resource languages. In this work we extend the OpenLID classifier by adding more training data, merging problematic language variant clusters, and introducing a special label for marking noise. We call this extended system OpenLID-v3 and evaluate it against GlotLID on multiple benchmarks. During development, we focus on three groups of closely related languages (Bosnian, Croatian, and Serbian; Romance varieties of Northern Italy and Southern France; and Scandinavian languages) and contribute new evaluation datasets where existing ones are inadequate. We find that ensemble approaches improve precision but also substantially reduce coverage for low-resource languages. OpenLID-v3 is available on https://huggingface.co/HPLT/OpenLID-v3.

OpenLID-v3 : Amélioration de la précision de l'identification de langues étroitement apparentées -- Rapport d'expérience

OpenLID-v3: Improving the Precision of Closely Related Language Identification -- An Experience Report

Résumé

Support