OpenLID-v3: Migliorare la Precisione nell'Identificazione di Lingue Strettamente Imparentate -- Un Resoconto Esperienziale

Abstract

L'identificazione linguistica (LID) è un passaggio essenziale nella creazione di dataset multilingue di alta qualità a partire da dati web. Gli strumenti di LID esistenti (come OpenLID o GlotLID) spesso incontrano difficoltà nell'identificare lingue strettamente imparentate e nel distinguere un linguaggio naturale valido dal rumore, il quale contamina i sottoinsiemi specifici per lingua, specialmente per le lingue a risorse limitate. In questo lavoro estendiamo il classificatore OpenLID aggiungendo più dati di addestramento, unendo cluster problematici di varianti linguistiche e introducendo un'etichetta speciale per contrassegnare il rumore. Chiamiamo questo sistema esteso OpenLID-v3 e lo valutiamo rispetto a GlotLID su molteplici benchmark. Durante lo sviluppo, ci concentriamo su tre gruppi di lingue strettamente correlate (bosniaco, croato e serbo; varietà romanze dell'Italia settentrionale e della Francia meridionale; e lingue scandinave) e contribuiamo con nuovi dataset di valutazione laddove quelli esistenti sono inadeguati. Rileviamo che gli approcci ensemble migliorano la precisione ma riducono anche sostanzialmente la copertura per le lingue a risorse limitate. OpenLID-v3 è disponibile su https://huggingface.co/HPLT/OpenLID-v3.

English

Language identification (LID) is an essential step in building high-quality multilingual datasets from web data. Existing LID tools (such as OpenLID or GlotLID) often struggle to identify closely related languages and to distinguish valid natural language from noise, which contaminates language-specific subsets, especially for low-resource languages. In this work we extend the OpenLID classifier by adding more training data, merging problematic language variant clusters, and introducing a special label for marking noise. We call this extended system OpenLID-v3 and evaluate it against GlotLID on multiple benchmarks. During development, we focus on three groups of closely related languages (Bosnian, Croatian, and Serbian; Romance varieties of Northern Italy and Southern France; and Scandinavian languages) and contribute new evaluation datasets where existing ones are inadequate. We find that ensemble approaches improve precision but also substantially reduce coverage for low-resource languages. OpenLID-v3 is available on https://huggingface.co/HPLT/OpenLID-v3.

OpenLID-v3: Migliorare la Precisione nell'Identificazione di Lingue Strettamente Imparentate -- Un Resoconto Esperienziale

OpenLID-v3: Improving the Precision of Closely Related Language Identification -- An Experience Report

Abstract

Support