OpenMed NER: Transformers de Última Geração Adaptados ao Domínio e de Código Aberto para Reconhecimento de Entidades Nomeadas Biomédicas em 12 Conjuntos de Dados Públicos
OpenMed NER: Open-Source, Domain-Adapted State-of-the-Art Transformers for Biomedical NER Across 12 Public Datasets
August 3, 2025
Autores: Maziyar Panahi
cs.AI
Resumo
O reconhecimento de entidades nomeadas (NER) é fundamental para extrair informações estruturadas dos mais de 80% dos dados de saúde que residem em notas clínicas não estruturadas e na literatura biomédica. Apesar dos avanços recentes com modelos de linguagem de grande escala, alcançar desempenho de ponta em diversos tipos de entidades, mantendo a eficiência computacional, continua sendo um desafio significativo. Apresentamos o OpenMed NER, um conjunto de modelos de transformadores de código aberto adaptados ao domínio que combinam pré-treinamento leve adaptado ao domínio (DAPT) com a adaptação de baixo custo de parâmetros Low-Rank Adaptation (LoRA). Nossa abordagem realiza DAPT de custo eficiente em um corpus de 350 mil passagens compilado a partir de repositórios de pesquisa publicamente disponíveis e de origem ética, além de notas clínicas anonimizadas (PubMed, arXiv e MIMIC-III), utilizando arquiteturas como DeBERTa-v3, PubMedBERT e BioELECTRA. Isso é seguido por ajuste fino específico para a tarefa com LoRA, que atualiza menos de 1,5% dos parâmetros do modelo. Avaliamos nossos modelos em 12 benchmarks estabelecidos de NER biomédico, abrangendo químicos, doenças, genes e espécies. O OpenMed NER alcança novos recordes de pontuação micro-F1 em 10 desses 12 conjuntos de dados, com ganhos substanciais em diversos tipos de entidades. Nossos modelos avançam o estado da arte em benchmarks fundamentais de doenças e químicos (por exemplo, BC5CDR-Disease, +2,70 pp), enquanto entregam melhorias ainda maiores de mais de 5,3 e 9,7 pontos percentuais em corpora mais especializados de genes e linhagens celulares clínicas. Este trabalho demonstra que modelos de código aberto estrategicamente adaptados podem superar soluções de código fechado. Esse desempenho é alcançado com eficiência notável: o treinamento é concluído em menos de 12 horas em uma única GPU, com uma pegada de carbono baixa (< 1,2 kg CO2e), produzindo checkpoints de código aberto licenciados de forma permissiva, projetados para ajudar profissionais a facilitar a conformidade com regulamentações emergentes de proteção de dados e IA, como o Ato de IA da UE.
English
Named-entity recognition (NER) is fundamental to extracting structured
information from the >80% of healthcare data that resides in unstructured
clinical notes and biomedical literature. Despite recent advances with large
language models, achieving state-of-the-art performance across diverse entity
types while maintaining computational efficiency remains a significant
challenge. We introduce OpenMed NER, a suite of open-source, domain-adapted
transformer models that combine lightweight domain-adaptive pre-training (DAPT)
with parameter-efficient Low-Rank Adaptation (LoRA). Our approach performs
cost-effective DAPT on a 350k-passage corpus compiled from ethically sourced,
publicly available research repositories and de-identified clinical notes
(PubMed, arXiv, and MIMIC-III) using DeBERTa-v3, PubMedBERT, and BioELECTRA
backbones. This is followed by task-specific fine-tuning with LoRA, which
updates less than 1.5% of model parameters. We evaluate our models on 12
established biomedical NER benchmarks spanning chemicals, diseases, genes, and
species. OpenMed NER achieves new state-of-the-art micro-F1 scores on 10 of
these 12 datasets, with substantial gains across diverse entity types. Our
models advance the state-of-the-art on foundational disease and chemical
benchmarks (e.g., BC5CDR-Disease, +2.70 pp), while delivering even larger
improvements of over 5.3 and 9.7 percentage points on more specialized gene and
clinical cell line corpora. This work demonstrates that strategically adapted
open-source models can surpass closed-source solutions. This performance is
achieved with remarkable efficiency: training completes in under 12 hours on a
single GPU with a low carbon footprint (< 1.2 kg CO2e), producing permissively
licensed, open-source checkpoints designed to help practitioners facilitate
compliance with emerging data protection and AI regulations, such as the EU AI
Act.