OpenLID-v3: Mejora de la Precisión en la Identificación de Lenguas Estrechamente Relacionadas -- Un Informe de Experiencia
OpenLID-v3: Improving the Precision of Closely Related Language Identification -- An Experience Report
February 13, 2026
Autores: Mariia Fedorova, Nikolay Arefyev, Maja Buljan, Jindřich Helcl, Stephan Oepen, Egil Rønningstad, Yves Scherrer
cs.AI
Resumen
La identificación de idiomas (LID) es un paso esencial en la construcción de conjuntos de datos multilingües de alta calidad a partir de datos web. Las herramientas de LID existentes (como OpenLID o GlotLID) a menudo tienen dificultades para identificar lenguas estrechamente relacionadas y para distinguir lenguaje natural válido del ruido, lo que contamina los subconjuntos específicos de cada idioma, especialmente para lenguas de bajos recursos. En este trabajo extendemos el clasificador OpenLID añadiendo más datos de entrenamiento, fusionando grupos problemáticos de variantes lingüísticas e introduciendo una etiqueta especial para marcar ruido. Denominamos a este sistema extendido OpenLID-v3 y lo evaluamos comparándolo con GlotLID en varios puntos de referencia. Durante el desarrollo, nos centramos en tres grupos de lenguas estrechamente relacionadas (bosnio, croata y serbio; variedades romances del norte de Italia y el sur de Francia; y lenguas escandinavas) y contribuimos con nuevos conjuntos de datos de evaluación donde los existentes son inadecuados. Encontramos que los enfoques de conjunto mejoran la precisión pero también reducen sustancialmente la cobertura para lenguas de bajos recursos. OpenLID-v3 está disponible en https://huggingface.co/HPLT/OpenLID-v3.
English
Language identification (LID) is an essential step in building high-quality multilingual datasets from web data. Existing LID tools (such as OpenLID or GlotLID) often struggle to identify closely related languages and to distinguish valid natural language from noise, which contaminates language-specific subsets, especially for low-resource languages. In this work we extend the OpenLID classifier by adding more training data, merging problematic language variant clusters, and introducing a special label for marking noise. We call this extended system OpenLID-v3 and evaluate it against GlotLID on multiple benchmarks. During development, we focus on three groups of closely related languages (Bosnian, Croatian, and Serbian; Romance varieties of Northern Italy and Southern France; and Scandinavian languages) and contribute new evaluation datasets where existing ones are inadequate. We find that ensemble approaches improve precision but also substantially reduce coverage for low-resource languages. OpenLID-v3 is available on https://huggingface.co/HPLT/OpenLID-v3.