ChatPaper.aiChatPaper

FiNERweb: Datasets und Artefakte für skalierbare mehrsprachige Erkennung von Entitäten

FiNERweb: Datasets and Artifacts for Scalable Multilingual Named Entity Recognition

December 15, 2025
papers.authors: Jonas Golde, Patrick Haller, Alan Akbik
cs.AI

papers.abstract

Aktuelle Arbeiten zur mehrsprachigen Erkennung von benannten Entitäten (NER) haben gezeigt, dass große Sprachmodelle (LLMs) effektive synthetische Supervision bieten können. Dennoch sind solche Datensätze meist als Nebenprodukte breiter angelegter Experimente entstanden und nicht als systematische, wiederverwendbare Ressourcen. Wir stellen FiNERweb vor, eine Pipeline zur Datensatzerstellung, die das Lehrer-Schüler-Paradigma auf 91 Sprachen und 25 Schriftsysteme skaliert. Aufbauend auf FineWeb-Edu trainiert unser Ansatz Regressionsmodelle, um NER-relevante Textpassagen zu identifizieren, und annotiert diese mit mehrsprachigen LLMs. Das Ergebnis sind etwa 225.000 Passagen mit 235.000 verschiedenen Entitäten-Labels. Unsere Experimente zeigen, dass das Regressionsmodell einen F1-Score von über 84 erreicht und dass Modelle, die auf FiNERweb trainiert wurden, vergleichbare oder verbesserte Leistung in Zero-Shot-Transfer-Szenarien für Englisch, Thailändisch und Swahili erzielen – obwohl sie mit 19-mal weniger Daten trainiert wurden als starke Baseline-Modelle. Zusätzlich bewerten wir die Annotationsqualität mittels LLM-as-a-judge und beobachten durchgängig hohe Werte sowohl für die Korrektheit (3,99 von 5) als auch für die Vollständigkeit (4,05 von 5), was auf zuverlässige und informative Annotationen hindeutet. Darüber hinaus veröffentlichen wir den Datensatz sowohl mit englischen Labels als auch mit übersetzten Labelsets in den jeweiligen Zielsprachen, da wir feststellen, dass die Leistung aktueller state-of-the-art Modelle um 0,02 bis 0,09 F1-Score absinkt, wenn sie mit zielsprachigen Labels statt englischen Labels evaluiert werden. Wir stellen FiNERweb zusammen mit allen begleitenden Artefakten der Forschungsgemeinschaft zur Verfügung, um ein effektiveres Lehrer-Schüler-Training für die mehrsprachige Erkennung von benannten Entitäten zu ermöglichen.
English
Recent multilingual named entity recognition (NER) work has shown that large language models (LLMs) can provide effective synthetic supervision, yet such datasets have mostly appeared as by-products of broader experiments rather than as systematic, reusable resources. We introduce FiNERweb, a dataset-creation pipeline that scales the teacher-student paradigm to 91 languages and 25 scripts. Building on FineWeb-Edu, our approach trains regression models to identify NER-relevant passages and annotates them with multilingual LLMs, resulting in about 225k passages with 235k distinct entity labels. Our experiments show that the regression model achieves more than 84 F1, and that models trained on FiNERweb obtain comparable or improved performance in zero shot transfer settings on English, Thai, and Swahili, despite being trained on 19x less data than strong baselines. In addition, we assess annotation quality using LLM-as-a-judge and observe consistently high scores for both faithfulness (3.99 out of 5) and completeness (4.05 out of 5), indicating reliable and informative annotations. Further, we release the dataset with both English labels and translated label sets in the respective target languages because we observe that the performance of current state-of-the-art models drops by 0.02 to 0.09 F1 when evaluated using target language labels instead of English ones. We release FiNERweb together with all accompanying artifacts to the research community in order to facilitate more effective student-teacher training for multilingual named entity recognition.
PDF122December 19, 2025