ChatPaper.aiChatPaper

FiNERweb : Jeux de données et artefacts pour la reconnaissance d'entités nommées multilingue et évolutive

FiNERweb: Datasets and Artifacts for Scalable Multilingual Named Entity Recognition

December 15, 2025
papers.authors: Jonas Golde, Patrick Haller, Alan Akbik
cs.AI

papers.abstract

Les travaux récents sur la reconnaissance d'entités nommées (NER) multilingue ont montré que les grands modèles de langage (LLM) peuvent fournir une supervision synthétique efficace, mais ces ensembles de données sont souvent apparus comme des sous-produits d'expériences plus larges plutôt que comme des ressources systématiques et réutilisables. Nous présentons FiNERweb, un pipeline de création d'ensembles de données qui étend le paradigme enseignant-élève à 91 langues et 25 systèmes d'écriture. S'appuyant sur FineWeb-Edu, notre approche entraîne des modèles de régression pour identifier les passages pertinents pour la NER et les annote avec des LLM multilingues, produisant environ 225 000 passages avec 235 000 étiquettes d'entités distinctes. Nos expériences montrent que le modèle de régression atteint un score F1 supérieur à 84, et que les modèles entraînés sur FiNERweb obtiennent des performances comparables ou améliorées en transfert zero shot sur l'anglais, le thaï et le swahili, malgré un entraînement sur 19 fois moins de données que les bases de référence solides. De plus, nous évaluons la qualité des annotations par LLM-comme-juge et observons des scores constamment élevés pour la fidélité (3,99 sur 5) et l'exhaustivité (4,05 sur 5), indiquant des annotations fiables et informatives. Nous publions également l'ensemble de données avec les étiquettes en anglais et leurs traductions dans les langues cibles, car nous observons que les performances des modèles state-of-the-art actuels chutent de 0,02 à 0,09 point F1 lorsqu'elles sont évaluées avec des étiquettes dans la langue cible plutôt qu'en anglais. Nous mettons FiNERweb et tous les artefacts associés à la disposition de la communauté scientifique pour faciliter un entraînement enseignant-élève plus efficace pour la reconnaissance d'entités nommées multilingues.
English
Recent multilingual named entity recognition (NER) work has shown that large language models (LLMs) can provide effective synthetic supervision, yet such datasets have mostly appeared as by-products of broader experiments rather than as systematic, reusable resources. We introduce FiNERweb, a dataset-creation pipeline that scales the teacher-student paradigm to 91 languages and 25 scripts. Building on FineWeb-Edu, our approach trains regression models to identify NER-relevant passages and annotates them with multilingual LLMs, resulting in about 225k passages with 235k distinct entity labels. Our experiments show that the regression model achieves more than 84 F1, and that models trained on FiNERweb obtain comparable or improved performance in zero shot transfer settings on English, Thai, and Swahili, despite being trained on 19x less data than strong baselines. In addition, we assess annotation quality using LLM-as-a-judge and observe consistently high scores for both faithfulness (3.99 out of 5) and completeness (4.05 out of 5), indicating reliable and informative annotations. Further, we release the dataset with both English labels and translated label sets in the respective target languages because we observe that the performance of current state-of-the-art models drops by 0.02 to 0.09 F1 when evaluated using target language labels instead of English ones. We release FiNERweb together with all accompanying artifacts to the research community in order to facilitate more effective student-teacher training for multilingual named entity recognition.
PDF122December 19, 2025