ChatPaper.aiChatPaper

OpenMed NER: Open-Source, Domein-aangepaste State-of-the-Art Transformers voor Biomedische NER over 12 Openbare Datasets

OpenMed NER: Open-Source, Domain-Adapted State-of-the-Art Transformers for Biomedical NER Across 12 Public Datasets

August 3, 2025
Auteurs: Maziyar Panahi
cs.AI

Samenvatting

Named-entity recognition (NER) is essentieel voor het extraheren van gestructureerde informatie uit de >80% van de gezondheidszorgdata die zich bevindt in ongestructureerde klinische notities en biomedische literatuur. Ondanks recente vooruitgang met grote taalmodelen, blijft het bereiken van state-of-the-art prestaties over diverse entiteitstypen terwijl rekenefficiëntie behouden blijft een aanzienlijke uitdaging. Wij introduceren OpenMed NER, een suite van open-source, domeinaangepaste transformermodellen die lichtgewicht domeinaanpassende voorafgaande training (DAPT) combineren met parameter-efficiënte Low-Rank Adaptation (LoRA). Onze aanpak voert kosteneffectieve DAPT uit op een corpus van 350.000 passages samengesteld uit ethisch verkregen, publiekelijk beschikbare onderzoeksrepositories en geanonimiseerde klinische notities (PubMed, arXiv, en MIMIC-III) met behulp van DeBERTa-v3, PubMedBERT, en BioELECTRA backbones. Dit wordt gevolgd door taakspecifieke fine-tuning met LoRA, die minder dan 1,5% van de modelparameters bijwerkt. We evalueren onze modellen op 12 gevestigde biomedische NER benchmarks die chemicaliën, ziekten, genen en soorten omvatten. OpenMed NER behaalt nieuwe state-of-the-art micro-F1 scores op 10 van deze 12 datasets, met aanzienlijke verbeteringen over diverse entiteitstypen. Onze modellen verbeteren de state-of-the-art op fundamentele ziekte- en chemische benchmarks (bijv. BC5CDR-Ziekte, +2,70 pp), terwijl ze nog grotere verbeteringen van meer dan 5,3 en 9,7 procentpunten leveren op meer gespecialiseerde gen- en klinische cellijn corpora. Dit werk toont aan dat strategisch aangepaste open-source modellen gesloten bronoplossingen kunnen overtreffen. Deze prestaties worden bereikt met opmerkelijke efficiëntie: de training wordt voltooid in minder dan 12 uur op een enkele GPU met een lage koolstofvoetafdruk (< 1,2 kg CO2e), waarbij permissief gelicentieerde, open-source checkpoints worden geproduceerd die ontworpen zijn om professionals te helpen bij het faciliteren van naleving van opkomende gegevensbescherming en AI-regelgeving, zoals de EU AI Act.
English
Named-entity recognition (NER) is fundamental to extracting structured information from the >80% of healthcare data that resides in unstructured clinical notes and biomedical literature. Despite recent advances with large language models, achieving state-of-the-art performance across diverse entity types while maintaining computational efficiency remains a significant challenge. We introduce OpenMed NER, a suite of open-source, domain-adapted transformer models that combine lightweight domain-adaptive pre-training (DAPT) with parameter-efficient Low-Rank Adaptation (LoRA). Our approach performs cost-effective DAPT on a 350k-passage corpus compiled from ethically sourced, publicly available research repositories and de-identified clinical notes (PubMed, arXiv, and MIMIC-III) using DeBERTa-v3, PubMedBERT, and BioELECTRA backbones. This is followed by task-specific fine-tuning with LoRA, which updates less than 1.5% of model parameters. We evaluate our models on 12 established biomedical NER benchmarks spanning chemicals, diseases, genes, and species. OpenMed NER achieves new state-of-the-art micro-F1 scores on 10 of these 12 datasets, with substantial gains across diverse entity types. Our models advance the state-of-the-art on foundational disease and chemical benchmarks (e.g., BC5CDR-Disease, +2.70 pp), while delivering even larger improvements of over 5.3 and 9.7 percentage points on more specialized gene and clinical cell line corpora. This work demonstrates that strategically adapted open-source models can surpass closed-source solutions. This performance is achieved with remarkable efficiency: training completes in under 12 hours on a single GPU with a low carbon footprint (< 1.2 kg CO2e), producing permissively licensed, open-source checkpoints designed to help practitioners facilitate compliance with emerging data protection and AI regulations, such as the EU AI Act.
PDF74August 7, 2025