OpenMed NER: Open-Source, domänenangepasste State-of-the-Art-Transformer für biomedizinische Named Entity Recognition über 12 öffentliche Datensätze
OpenMed NER: Open-Source, Domain-Adapted State-of-the-Art Transformers for Biomedical NER Across 12 Public Datasets
August 3, 2025
papers.authors: Maziyar Panahi
cs.AI
papers.abstract
Named-Entity Recognition (NER) ist grundlegend für die Extraktion strukturierter Informationen aus den >80 % der Gesundheitsdaten, die in unstrukturierten klinischen Notizen und biomedizinischer Literatur enthalten sind. Trotz jüngster Fortschritte bei großen Sprachmodellen bleibt die Erreichung von Spitzenleistungen über verschiedene Entitätstypen hinweg bei gleichzeitiger Wahrung der Recheneffizienz eine erhebliche Herausforderung. Wir stellen OpenMed NER vor, eine Suite von Open-Source-Transformer-Modellen, die domänenadaptives Pre-Training (DAPT) mit parameter-effizienter Low-Rank Adaptation (LoRA) kombinieren. Unser Ansatz führt kosteneffizientes DAPT auf einem Korpus von 350.000 Passagen durch, der aus ethisch einwandfreien, öffentlich zugänglichen Forschungsrepositorien und anonymisierten klinischen Notizen (PubMed, arXiv und MIMIC-III) zusammengestellt wurde, wobei DeBERTa-v3, PubMedBERT und BioELECTRA als Backbones verwendet werden. Darauf folgt eine aufgabenspezifische Feinabstimmung mit LoRA, die weniger als 1,5 % der Modellparameter aktualisiert. Wir evaluieren unsere Modelle anhand von 12 etablierten biomedizinischen NER-Benchmarks, die Chemikalien, Krankheiten, Gene und Spezies abdecken. OpenMed NER erreicht neue Spitzenwerte bei den Mikro-F1-Scores auf 10 dieser 12 Datensätze, mit erheblichen Verbesserungen über verschiedene Entitätstypen hinweg. Unsere Modelle setzen neue Maßstäbe bei grundlegenden Benchmarks für Krankheiten und Chemikalien (z. B. BC5CDR-Disease, +2,70 Prozentpunkte), während sie noch größere Verbesserungen von über 5,3 und 9,7 Prozentpunkten auf spezialisierteren Gen- und klinischen Zelllinien-Korpora erzielen. Diese Arbeit zeigt, dass strategisch angepasste Open-Source-Modelle proprietäre Lösungen übertreffen können. Diese Leistung wird mit bemerkenswerter Effizienz erreicht: Das Training dauert weniger als 12 Stunden auf einer einzelnen GPU mit einem geringen CO2-Fußabdruck (< 1,2 kg CO2e) und produziert Open-Source-Checkpoints mit freizügigen Lizenzen, die Praktikern dabei helfen sollen, die Einhaltung neuer Datenschutz- und KI-Regulierungen wie dem EU-KI-Gesetz zu erleichtern.
English
Named-entity recognition (NER) is fundamental to extracting structured
information from the >80% of healthcare data that resides in unstructured
clinical notes and biomedical literature. Despite recent advances with large
language models, achieving state-of-the-art performance across diverse entity
types while maintaining computational efficiency remains a significant
challenge. We introduce OpenMed NER, a suite of open-source, domain-adapted
transformer models that combine lightweight domain-adaptive pre-training (DAPT)
with parameter-efficient Low-Rank Adaptation (LoRA). Our approach performs
cost-effective DAPT on a 350k-passage corpus compiled from ethically sourced,
publicly available research repositories and de-identified clinical notes
(PubMed, arXiv, and MIMIC-III) using DeBERTa-v3, PubMedBERT, and BioELECTRA
backbones. This is followed by task-specific fine-tuning with LoRA, which
updates less than 1.5% of model parameters. We evaluate our models on 12
established biomedical NER benchmarks spanning chemicals, diseases, genes, and
species. OpenMed NER achieves new state-of-the-art micro-F1 scores on 10 of
these 12 datasets, with substantial gains across diverse entity types. Our
models advance the state-of-the-art on foundational disease and chemical
benchmarks (e.g., BC5CDR-Disease, +2.70 pp), while delivering even larger
improvements of over 5.3 and 9.7 percentage points on more specialized gene and
clinical cell line corpora. This work demonstrates that strategically adapted
open-source models can surpass closed-source solutions. This performance is
achieved with remarkable efficiency: training completes in under 12 hours on a
single GPU with a low carbon footprint (< 1.2 kg CO2e), producing permissively
licensed, open-source checkpoints designed to help practitioners facilitate
compliance with emerging data protection and AI regulations, such as the EU AI
Act.