FiNERweb: Наборы данных и артефакты для масштабируемого многозычного распознавания именованных сущностей
FiNERweb: Datasets and Artifacts for Scalable Multilingual Named Entity Recognition
December 15, 2025
Авторы: Jonas Golde, Patrick Haller, Alan Akbik
cs.AI
Аннотация
Современные исследования в области многозадачного распознавания именованных сущностей (NER) показали, что большие языковые модели (LLM) способны обеспечивать эффективное синтетическое обучение, однако такие наборы данных в основном появлялись как побочные продукты широкомасштабных экспериментов, а не как систематические, пригодные для повторного использования ресурсы. Мы представляем FiNERweb — конвейер создания наборов данных, который масштабирует парадигму «учитель-ученик» до 91 языка и 25 систем письменности. Основываясь на FineWeb-Edu, наш подход использует обучение регрессионных моделей для идентификации фрагментов текста, релевантных для NER, и аннотирует их с помощью многоязычных LLM, в результате чего получается около 225 тысяч фрагментов с 235 тысячами уникальных меток сущностей. Наши эксперименты показывают, что регрессионная модель достигает показателя F1 выше 84, а модели, обученные на FiNERweb, демонстрируют сопоставимую или улучшенную производительность в условиях zero-shot переноса на английский, тайский и суахили, несмотря на обучение на данных в 19 раз меньшего объема по сравнению с сильными базовыми уровнями. Кроме того, мы оцениваем качество аннотаций с использованием LLM-как-судьи и наблюдаем стабильно высокие баллы как за достоверность (3,99 из 5), так и за полноту (4,05 из 5), что указывает на надежные и информативные аннотации. Дополнительно мы публикуем набор данных как с английскими метками, так и с переведенными наборами меток на соответствующих целевых языках, поскольку мы наблюдаем, что производительность современных передовых моделей снижается на 0,02–0,09 F1 при оценке с использованием меток на целевом языке вместо английских. Мы публикуем FiNERweb вместе со всеми сопутствующими материалами для исследовательского сообщества, чтобы способствовать более эффективному обучению по схеме «учитель-ученик» для многозадачного распознавания именованных сущностей.
English
Recent multilingual named entity recognition (NER) work has shown that large language models (LLMs) can provide effective synthetic supervision, yet such datasets have mostly appeared as by-products of broader experiments rather than as systematic, reusable resources. We introduce FiNERweb, a dataset-creation pipeline that scales the teacher-student paradigm to 91 languages and 25 scripts. Building on FineWeb-Edu, our approach trains regression models to identify NER-relevant passages and annotates them with multilingual LLMs, resulting in about 225k passages with 235k distinct entity labels. Our experiments show that the regression model achieves more than 84 F1, and that models trained on FiNERweb obtain comparable or improved performance in zero shot transfer settings on English, Thai, and Swahili, despite being trained on 19x less data than strong baselines. In addition, we assess annotation quality using LLM-as-a-judge and observe consistently high scores for both faithfulness (3.99 out of 5) and completeness (4.05 out of 5), indicating reliable and informative annotations. Further, we release the dataset with both English labels and translated label sets in the respective target languages because we observe that the performance of current state-of-the-art models drops by 0.02 to 0.09 F1 when evaluated using target language labels instead of English ones. We release FiNERweb together with all accompanying artifacts to the research community in order to facilitate more effective student-teacher training for multilingual named entity recognition.