OpenLID-v3: Het verbeteren van de precisie van identificatie van nauw verwante talen

Samenvatting

Taalidentificatie (LID) is een essentiële stap bij het opbouwen van hoogwaardige meertalige datasets uit webgegevens. Bestaande LID-tools (zoals OpenLID of GlotLID) hebben vaak moeite met het identificeren van nauw verwante talen en het onderscheiden van geldige natuurlijke taal van ruis, wat taalspecifieke subsets verontreinigt, vooral voor talen met weinig bronnen. In dit werk breiden we de OpenLID-classificator uit door meer trainingsgegevens toe te voegen, problematische taalvariantclusters samen te voegen en een speciaal label te introduceren voor het markeren van ruis. We noemen dit uitgebreide systeem OpenLID-v3 en evalueren het tegenover GlotLID op meerdere benchmarks. Tijdens de ontwikkeling richten we ons op drie groepen nauw verwante talen (Bosnisch, Kroatisch en Servisch; Romaanse variëteiten in Noord-Italië en Zuid-Frankrijk; en Scandinavische talen) en dragen we nieuwe evaluatiedatasets bij waar bestaande ontoereikend zijn. We stellen vast dat ensemblebenaderingen de precisie verbeteren, maar ook de dekking voor talen met weinig bronnen aanzienlijk verminderen. OpenLID-v3 is beschikbaar op https://huggingface.co/HPLT/OpenLID-v3.

English

Language identification (LID) is an essential step in building high-quality multilingual datasets from web data. Existing LID tools (such as OpenLID or GlotLID) often struggle to identify closely related languages and to distinguish valid natural language from noise, which contaminates language-specific subsets, especially for low-resource languages. In this work we extend the OpenLID classifier by adding more training data, merging problematic language variant clusters, and introducing a special label for marking noise. We call this extended system OpenLID-v3 and evaluate it against GlotLID on multiple benchmarks. During development, we focus on three groups of closely related languages (Bosnian, Croatian, and Serbian; Romance varieties of Northern Italy and Southern France; and Scandinavian languages) and contribute new evaluation datasets where existing ones are inadequate. We find that ensemble approaches improve precision but also substantially reduce coverage for low-resource languages. OpenLID-v3 is available on https://huggingface.co/HPLT/OpenLID-v3.

OpenLID-v3: Het verbeteren van de precisie van identificatie van nauw verwante talen – Een ervaringsrapport

OpenLID-v3: Improving the Precision of Closely Related Language Identification -- An Experience Report

Samenvatting

Support