ChatPaper.aiChatPaper

FiNERweb:スケーラブルな多言語固有表現認識のためのデータセットと成果物

FiNERweb: Datasets and Artifacts for Scalable Multilingual Named Entity Recognition

December 15, 2025
著者: Jonas Golde, Patrick Haller, Alan Akbik
cs.AI

要旨

近年の多言語固有表現認識(NER)研究では、大規模言語モデル(LLM)が効果的な合成的教師信号を提供できることが示されているが、そのようなデータセットは体系的な再利用可能リソースというより、より広範な実験の副産物として登場することがほとんどであった。本論文では、教師-生徒パラダイムを91言語25書記系にスケールするデータセット作成パイプラインであるFiNERwebを提案する。FineWeb-Eduを基盤とする本手法では、NER関連文書を特定する回帰モデルを訓練し、多言語LLMを用いてそれらにアノテーションを行うことで、約22万5千の文書と23万5千の異なるエンティティラベルからなるデータセットを構築した。実験結果では、回帰モデルが84 F1以上の性能を達成し、FiNERwebで訓練されたモデルが、強力なベースラインと比べて19倍少ないデータで訓練されているにも関わらず、英語、タイ語、スワヒリ語におけるゼロショット転移設定で同等または改善された性能を得ることが示された。さらに、LLMを評価者として用いてアノテーション品質を評価した結果、忠実性(5点中3.99点)と完全性(5点中4.05点)の両方で一貫して高いスコアが観察され、信頼性の高い情報量の多いアノテーションが行われていることが示唆された。加えて、現在の最先端モデルが英語ラベルではなく対象言語ラベルで評価された場合、F1スコアが0.02から0.09低下することを確認したため、データセットには英語ラベルに加えて各対象言語に翻訳されたラベルセットも付属して公開する。多言語固有表現認識のためのより効果的な教師-生徒訓練を促進するため、FiNERwebおよび関連する全ての成果物を研究コミュニティに公開する。
English
Recent multilingual named entity recognition (NER) work has shown that large language models (LLMs) can provide effective synthetic supervision, yet such datasets have mostly appeared as by-products of broader experiments rather than as systematic, reusable resources. We introduce FiNERweb, a dataset-creation pipeline that scales the teacher-student paradigm to 91 languages and 25 scripts. Building on FineWeb-Edu, our approach trains regression models to identify NER-relevant passages and annotates them with multilingual LLMs, resulting in about 225k passages with 235k distinct entity labels. Our experiments show that the regression model achieves more than 84 F1, and that models trained on FiNERweb obtain comparable or improved performance in zero shot transfer settings on English, Thai, and Swahili, despite being trained on 19x less data than strong baselines. In addition, we assess annotation quality using LLM-as-a-judge and observe consistently high scores for both faithfulness (3.99 out of 5) and completeness (4.05 out of 5), indicating reliable and informative annotations. Further, we release the dataset with both English labels and translated label sets in the respective target languages because we observe that the performance of current state-of-the-art models drops by 0.02 to 0.09 F1 when evaluated using target language labels instead of English ones. We release FiNERweb together with all accompanying artifacts to the research community in order to facilitate more effective student-teacher training for multilingual named entity recognition.
PDF122December 19, 2025