FiNERweb: Dataset e Artefatti per il Riconoscimento Scalabile di Entità Nome in Lingue Multiple
FiNERweb: Datasets and Artifacts for Scalable Multilingual Named Entity Recognition
December 15, 2025
Autori: Jonas Golde, Patrick Haller, Alan Akbik
cs.AI
Abstract
I recenti lavori sul riconoscimento di entità nominate (NER) multilingue hanno dimostrato che i grandi modelli linguistici (LLM) possono fornire una supervisione sintetica efficace, tuttavia tali dataset sono per lo più apparsi come sottoprodotti di esperimenti più ampi piuttosto che come risorse sistematiche e riutilizzabili. Introduciamo FiNERweb, una pipeline per la creazione di dataset che scala il paradigma insegnante-studente a 91 lingue e 25 sistemi di scrittura. Basandoci su FineWeb-Edu, il nostro approccio addestra modelli di regressione per identificare passaggi rilevanti per il NER e li annota con LLM multilingue, producendo circa 225.000 passaggi con 235.000 etichette di entità distinte. I nostri esperimenti mostrano che il modello di regressione raggiunge un punteggio F1 superiore a 84 e che i modelli addestrati su FiNERweb ottengono prestazioni comparabili o migliori in contesti di trasferimento zero-shot per inglese, thailandese e swahili, nonostante siano addestrati su 19 volte meno dati rispetto a baseline solide. Inoltre, valutiamo la qualità dell'annotazione utilizzando LLM come giudice e osserviamo punteggi costantemente elevati sia per la fedeltà (3,99 su 5) che per la completezza (4,05 su 5), indicando annotazioni affidabili e informative. Inoltre, rilasciamo il dataset con etichette in inglese e set di etichette tradotte nelle rispettive lingue target, poiché osserviamo che le prestazioni dei modelli allo stato dell'arte attuali diminuiscono da 0,02 a 0,09 punti F1 quando valutati utilizzando etichette nella lingua target invece che in inglese. Rilasciamo FiNERweb insieme a tutti gli artefatti correlati alla comunità di ricerca per facilitare un addestramento insegnante-studente più efficace per il riconoscimento di entità nominate multilingue.
English
Recent multilingual named entity recognition (NER) work has shown that large language models (LLMs) can provide effective synthetic supervision, yet such datasets have mostly appeared as by-products of broader experiments rather than as systematic, reusable resources. We introduce FiNERweb, a dataset-creation pipeline that scales the teacher-student paradigm to 91 languages and 25 scripts. Building on FineWeb-Edu, our approach trains regression models to identify NER-relevant passages and annotates them with multilingual LLMs, resulting in about 225k passages with 235k distinct entity labels. Our experiments show that the regression model achieves more than 84 F1, and that models trained on FiNERweb obtain comparable or improved performance in zero shot transfer settings on English, Thai, and Swahili, despite being trained on 19x less data than strong baselines. In addition, we assess annotation quality using LLM-as-a-judge and observe consistently high scores for both faithfulness (3.99 out of 5) and completeness (4.05 out of 5), indicating reliable and informative annotations. Further, we release the dataset with both English labels and translated label sets in the respective target languages because we observe that the performance of current state-of-the-art models drops by 0.02 to 0.09 F1 when evaluated using target language labels instead of English ones. We release FiNERweb together with all accompanying artifacts to the research community in order to facilitate more effective student-teacher training for multilingual named entity recognition.