OpenMed NER: Trasformatori Open-Source, Adattati al Dominio e allo Stato dell'Arte per il Riconoscimento di Entità Nominate Biomediche su 12 Dataset Pubblici
OpenMed NER: Open-Source, Domain-Adapted State-of-the-Art Transformers for Biomedical NER Across 12 Public Datasets
August 3, 2025
Autori: Maziyar Panahi
cs.AI
Abstract
Il riconoscimento di entità nominate (NER) è fondamentale per estrarre informazioni strutturate da oltre l'80% dei dati sanitari che risiedono in note cliniche non strutturate e nella letteratura biomedica. Nonostante i recenti progressi con i modelli linguistici di grandi dimensioni, raggiungere prestazioni all'avanguardia su diversi tipi di entità mantenendo l'efficienza computazionale rimane una sfida significativa. Presentiamo OpenMed NER, una suite di modelli transformer open-source adattati al dominio che combinano un pre-addestramento leggero adattato al dominio (DAPT) con l'adattamento efficiente in termini di parametri Low-Rank Adaptation (LoRA). Il nostro approccio esegue un DAPT economicamente vantaggioso su un corpus di 350k passaggi compilato da repository di ricerca pubblicamente disponibili e da note cliniche de-identificate (PubMed, arXiv e MIMIC-III) utilizzando architetture come DeBERTa-v3, PubMedBERT e BioELECTRA. Questo è seguito da un fine-tuning specifico per il compito con LoRA, che aggiorna meno dell'1,5% dei parametri del modello. Valutiamo i nostri modelli su 12 benchmark consolidati per il NER biomedico, che coprono sostanze chimiche, malattie, geni e specie. OpenMed NER raggiunge nuovi punteggi micro-F1 all'avanguardia su 10 di questi 12 dataset, con miglioramenti sostanziali su diversi tipi di entità. I nostri modelli avanzano lo stato dell'arte su benchmark fondamentali per malattie e sostanze chimiche (ad esempio, BC5CDR-Disease, +2,70 pp), mentre offrono miglioramenti ancora maggiori di oltre 5,3 e 9,7 punti percentuali su corpora più specializzati come quelli di geni e linee cellulari cliniche. Questo lavoro dimostra che modelli open-source adattati strategicamente possono superare soluzioni closed-source. Queste prestazioni sono raggiunte con un'efficienza notevole: l'addestramento si completa in meno di 12 ore su una singola GPU con una bassa impronta di carbonio (< 1,2 kg CO2e), producendo checkpoint open-source con licenza permissiva progettati per aiutare i professionisti a facilitare la conformità con le normative emergenti sulla protezione dei dati e sull'IA, come l'AI Act dell'UE.
English
Named-entity recognition (NER) is fundamental to extracting structured
information from the >80% of healthcare data that resides in unstructured
clinical notes and biomedical literature. Despite recent advances with large
language models, achieving state-of-the-art performance across diverse entity
types while maintaining computational efficiency remains a significant
challenge. We introduce OpenMed NER, a suite of open-source, domain-adapted
transformer models that combine lightweight domain-adaptive pre-training (DAPT)
with parameter-efficient Low-Rank Adaptation (LoRA). Our approach performs
cost-effective DAPT on a 350k-passage corpus compiled from ethically sourced,
publicly available research repositories and de-identified clinical notes
(PubMed, arXiv, and MIMIC-III) using DeBERTa-v3, PubMedBERT, and BioELECTRA
backbones. This is followed by task-specific fine-tuning with LoRA, which
updates less than 1.5% of model parameters. We evaluate our models on 12
established biomedical NER benchmarks spanning chemicals, diseases, genes, and
species. OpenMed NER achieves new state-of-the-art micro-F1 scores on 10 of
these 12 datasets, with substantial gains across diverse entity types. Our
models advance the state-of-the-art on foundational disease and chemical
benchmarks (e.g., BC5CDR-Disease, +2.70 pp), while delivering even larger
improvements of over 5.3 and 9.7 percentage points on more specialized gene and
clinical cell line corpora. This work demonstrates that strategically adapted
open-source models can surpass closed-source solutions. This performance is
achieved with remarkable efficiency: training completes in under 12 hours on a
single GPU with a low carbon footprint (< 1.2 kg CO2e), producing permissively
licensed, open-source checkpoints designed to help practitioners facilitate
compliance with emerging data protection and AI regulations, such as the EU AI
Act.