FiNERweb: 확장 가능한 다국어 개체명 인식을 위한 데이터셋 및 아티팩트
FiNERweb: Datasets and Artifacts for Scalable Multilingual Named Entity Recognition
December 15, 2025
저자: Jonas Golde, Patrick Haller, Alan Akbik
cs.AI
초록
최근 다국어 개체명 인식(NER) 연구에서는 대규모 언어 모델(LLM)이 효과적인 합성 감독을 제공할 수 있음이 입증되었으나, 이러한 데이터셋은 체계적이고 재사용 가능한 자원이라기보다 광범위한 실험의 부산물로 등장하는 경우가 대부분이었습니다. 본 연구에서는 교사-학생 패러다임을 91개 언어와 25개 문자 체계로 확장하는 데이터셋 생성 파이프라인인 FiNERweb을 소개합니다. FineWeb-Edu를 기반으로 하는 우리의 접근법은 NER 관련 문서를 식별하기 위한 회귀 모델을 훈련시키고 다국어 LLM을 사용하여 주석을 추가하며, 약 225,000개의 문서와 235,000개의 고유 개체명 레이블을 생성합니다. 우리의 실험에 따르면 회귀 모델은 84 F1 이상의 성능을 달성했으며, FiNERweb으로 훈련된 모델은 강력한 기준 모델 대비 19배 적은 데이터로 훈련되었음에도 불구하고 영어, 태국어, 스와힐리어에 대한 제로샷 전이 설정에서 비슷하거나 향상된 성능을 얻었습니다. 또한 LLM-as-a-judge를 사용하여 주석 품질을 평가한 결과, 신뢰도(5점 만점에 3.99)와 완전성(5점 만점에 4.05) 모두에서 일관되게 높은 점수를 관찰하여 신뢰할 수 있고 유익한 주석이 생성되었음을 확인했습니다. 더 나아가, 현재 최첨단 모델의 성능이 영어 레이블 대신 대상 언어 레이블을 사용하여 평가될 때 0.02에서 0.09 F1만큼 하락하는 것을 관찰했기 때문에, 영어 레이블과 각 대상 언어로 번역된 레이블 세트를 모두 포함한 데이터셋을 공개합니다. 우리는 다국어 개체명 인식을 위한 보다 효과적인 교사-학생 훈련을 촉진하기 위해 FiNERweb과 모든 관련 아티팩트를 연구 커뮤니티에 공개합니다.
English
Recent multilingual named entity recognition (NER) work has shown that large language models (LLMs) can provide effective synthetic supervision, yet such datasets have mostly appeared as by-products of broader experiments rather than as systematic, reusable resources. We introduce FiNERweb, a dataset-creation pipeline that scales the teacher-student paradigm to 91 languages and 25 scripts. Building on FineWeb-Edu, our approach trains regression models to identify NER-relevant passages and annotates them with multilingual LLMs, resulting in about 225k passages with 235k distinct entity labels. Our experiments show that the regression model achieves more than 84 F1, and that models trained on FiNERweb obtain comparable or improved performance in zero shot transfer settings on English, Thai, and Swahili, despite being trained on 19x less data than strong baselines. In addition, we assess annotation quality using LLM-as-a-judge and observe consistently high scores for both faithfulness (3.99 out of 5) and completeness (4.05 out of 5), indicating reliable and informative annotations. Further, we release the dataset with both English labels and translated label sets in the respective target languages because we observe that the performance of current state-of-the-art models drops by 0.02 to 0.09 F1 when evaluated using target language labels instead of English ones. We release FiNERweb together with all accompanying artifacts to the research community in order to facilitate more effective student-teacher training for multilingual named entity recognition.