ChatPaper.aiChatPaper

FiNERweb: Conjuntos de Datos y Artefactos para el Reconocimiento Escalable de Entidades Nombradas Multilingüe

FiNERweb: Datasets and Artifacts for Scalable Multilingual Named Entity Recognition

December 15, 2025
Autores: Jonas Golde, Patrick Haller, Alan Akbik
cs.AI

Resumen

Los trabajos recientes en reconocimiento de entidades nombradas (NER) multilingüe han demostrado que los modelos de lenguaje grandes (LLMs) pueden proporcionar supervisión sintética efectiva; sin embargo, estos conjuntos de datos han aparecido principalmente como subproductos de experimentos más amplios en lugar de como recursos sistemáticos y reutilizables. Presentamos FiNERweb, un pipeline de creación de conjuntos de datos que escala el paradigma maestro-estudiante a 91 idiomas y 25 escrituras. Basándonos en FineWeb-Edu, nuestro enfoque entrena modelos de regresión para identificar pasajes relevantes para NER y los anota con LLMs multilingües, resultando en aproximadamente 225.000 pasajes con 235.000 etiquetas de entidades distintas. Nuestros experimentos muestran que el modelo de regresión alcanza más de 84 F1, y que los modelos entrenados con FiNERweb obtienen un rendimiento comparable o mejorado en entornos de transferencia zero shot en inglés, tailandés y suajili, a pesar de ser entrenados con 19 veces menos datos que las líneas base sólidas. Además, evaluamos la calidad de la anotación utilizando LLM-como-juez y observamos puntuaciones consistentemente altas tanto en fidelidad (3.99 sobre 5) como en integridad (4.05 sobre 5), lo que indica anotaciones confiables e informativas. Adicionalmente, publicamos el conjunto de datos con etiquetas en inglés y conjuntos de etiquetas traducidas a los respectivos idiomas objetivo, ya que observamos que el rendimiento de los modelos actuales de última generación disminuye entre 0.02 y 0.09 F1 cuando se evalúan utilizando etiquetas en el idioma objetivo en lugar de las inglesas. Publicamos FiNERweb junto con todos los artefactos asociados para la comunidad investigadora con el fin de facilitar un entrenamiento maestro-estudiante más efectivo para el reconocimiento de entidades nombradas multilingüe.
English
Recent multilingual named entity recognition (NER) work has shown that large language models (LLMs) can provide effective synthetic supervision, yet such datasets have mostly appeared as by-products of broader experiments rather than as systematic, reusable resources. We introduce FiNERweb, a dataset-creation pipeline that scales the teacher-student paradigm to 91 languages and 25 scripts. Building on FineWeb-Edu, our approach trains regression models to identify NER-relevant passages and annotates them with multilingual LLMs, resulting in about 225k passages with 235k distinct entity labels. Our experiments show that the regression model achieves more than 84 F1, and that models trained on FiNERweb obtain comparable or improved performance in zero shot transfer settings on English, Thai, and Swahili, despite being trained on 19x less data than strong baselines. In addition, we assess annotation quality using LLM-as-a-judge and observe consistently high scores for both faithfulness (3.99 out of 5) and completeness (4.05 out of 5), indicating reliable and informative annotations. Further, we release the dataset with both English labels and translated label sets in the respective target languages because we observe that the performance of current state-of-the-art models drops by 0.02 to 0.09 F1 when evaluated using target language labels instead of English ones. We release FiNERweb together with all accompanying artifacts to the research community in order to facilitate more effective student-teacher training for multilingual named entity recognition.
PDF122December 19, 2025