ChatPaper.aiChatPaper

FiNERweb: Datasets en Artefacten voor Schaalbare Meertalige Herkenning van Genoemde Entiteiten

FiNERweb: Datasets and Artifacts for Scalable Multilingual Named Entity Recognition

December 15, 2025
Auteurs: Jonas Golde, Patrick Haller, Alan Akbik
cs.AI

Samenvatting

Recente ontwikkelingen op het gebied van meertalige herkenning van benoemde entiteiten (NER) tonen aan dat grote taalmodelen (LLM's) effectieve synthetische supervisie kunnen bieden. Toch zijn dergelijke datasets vooral als bijproducten van bredere experimenten verschenen, in plaats van als systematische, herbruikbare bronnen. Wij introduceren FiNERweb, een pijplijn voor het creëren van datasets die het teacher-student-paradigma opschaalt naar 91 talen en 25 schriftsystemen. Voortbouwend op FineWeb-Edu traint onze aanpak regressiemodellen om NER-relevante passages te identificeren en annoteert deze met meertalige LLM's, wat resulteert in ongeveer 225.000 passages met 235.000 unieke entiteit-labels. Onze experimenten tonen aan dat het regressiemodel een F1-score van meer dan 84 behaalt, en dat modellen getraind op FiNERweb vergelijkbare of verbeterde prestaties leveren in zero-shot transfer settings voor Engels, Thai en Swahili, ondanks dat ze zijn getraind met 19x minder data dan sterke baseline-modellen. Daarnaast beoordelen we de annotatiekwaliteit met LLM-as-a-judge en observeren we consistente hoge scores voor zowel trouw aan de bron (3.99 van de 5) als volledigheid (4.05 van de 5), wat duidt op betrouwbare en informatieve annotaties. Verder publiceren we de dataset met zowel Engelse labels als vertaalde labelsets in de respectievelijke doeltalen, omdat we vaststellen dat de prestaties van huidige state-of-the-art modellen met 0.02 tot 0.09 F1-punten dalen wanneer ze worden geëvalueerd met doeltaallabels in plaats van Engelse labels. Wij geven FiNERweb, samen met alle bijbehorende artefacten, vrij aan de onderzoeksgemeenschap om effectievere teacher-student training voor meertalige herkenning van benoemde entiteiten te faciliteren.
English
Recent multilingual named entity recognition (NER) work has shown that large language models (LLMs) can provide effective synthetic supervision, yet such datasets have mostly appeared as by-products of broader experiments rather than as systematic, reusable resources. We introduce FiNERweb, a dataset-creation pipeline that scales the teacher-student paradigm to 91 languages and 25 scripts. Building on FineWeb-Edu, our approach trains regression models to identify NER-relevant passages and annotates them with multilingual LLMs, resulting in about 225k passages with 235k distinct entity labels. Our experiments show that the regression model achieves more than 84 F1, and that models trained on FiNERweb obtain comparable or improved performance in zero shot transfer settings on English, Thai, and Swahili, despite being trained on 19x less data than strong baselines. In addition, we assess annotation quality using LLM-as-a-judge and observe consistently high scores for both faithfulness (3.99 out of 5) and completeness (4.05 out of 5), indicating reliable and informative annotations. Further, we release the dataset with both English labels and translated label sets in the respective target languages because we observe that the performance of current state-of-the-art models drops by 0.02 to 0.09 F1 when evaluated using target language labels instead of English ones. We release FiNERweb together with all accompanying artifacts to the research community in order to facilitate more effective student-teacher training for multilingual named entity recognition.
PDF122December 19, 2025