OpenMed NER: Transformers de última generación de código abierto y adaptados al dominio para el reconocimiento de entidades nombradas biomédicas en 12 conjuntos de datos públicos
OpenMed NER: Open-Source, Domain-Adapted State-of-the-Art Transformers for Biomedical NER Across 12 Public Datasets
August 3, 2025
Autores: Maziyar Panahi
cs.AI
Resumen
El reconocimiento de entidades nombradas (NER, por sus siglas en inglés) es fundamental para extraer información estructurada del más del 80% de los datos sanitarios que residen en notas clínicas no estructuradas y literatura biomédica. A pesar de los avances recientes con modelos de lenguaje de gran escala, lograr un rendimiento de vanguardia en diversos tipos de entidades manteniendo la eficiencia computacional sigue siendo un desafío significativo. Presentamos OpenMed NER, un conjunto de modelos transformadores de código abierto adaptados al dominio que combinan un preentrenamiento ligero adaptativo al dominio (DAPT) con la adaptación eficiente en parámetros de baja dimensión (LoRA). Nuestro enfoque realiza un DAPT rentable en un corpus de 350.000 pasajes compilado a partir de repositorios de investigación de acceso público y notas clínicas anonimizadas (PubMed, arXiv y MIMIC-III) utilizando arquitecturas como DeBERTa-v3, PubMedBERT y BioELECTRA. Esto es seguido por un ajuste fino específico de la tarea con LoRA, que actualiza menos del 1,5% de los parámetros del modelo. Evaluamos nuestros modelos en 12 puntos de referencia establecidos para NER biomédico que abarcan químicos, enfermedades, genes y especies. OpenMed NER alcanza nuevos puntajes micro-F1 de vanguardia en 10 de estos 12 conjuntos de datos, con mejoras sustanciales en diversos tipos de entidades. Nuestros modelos avanzan el estado del arte en puntos de referencia fundamentales de enfermedades y químicos (por ejemplo, BC5CDR-Disease, +2,70 pp), mientras ofrecen mejoras aún mayores de más de 5,3 y 9,7 puntos porcentuales en corpus más especializados de genes y líneas celulares clínicas. Este trabajo demuestra que los modelos de código abierto adaptados estratégicamente pueden superar a las soluciones de código cerrado. Este rendimiento se logra con una eficiencia notable: el entrenamiento se completa en menos de 12 horas en una sola GPU con una baja huella de carbono (< 1,2 kg CO2e), produciendo puntos de control de código abierto con licencias permisivas diseñados para ayudar a los profesionales a facilitar el cumplimiento de las normativas emergentes de protección de datos y regulaciones de IA, como la Ley de IA de la UE.
English
Named-entity recognition (NER) is fundamental to extracting structured
information from the >80% of healthcare data that resides in unstructured
clinical notes and biomedical literature. Despite recent advances with large
language models, achieving state-of-the-art performance across diverse entity
types while maintaining computational efficiency remains a significant
challenge. We introduce OpenMed NER, a suite of open-source, domain-adapted
transformer models that combine lightweight domain-adaptive pre-training (DAPT)
with parameter-efficient Low-Rank Adaptation (LoRA). Our approach performs
cost-effective DAPT on a 350k-passage corpus compiled from ethically sourced,
publicly available research repositories and de-identified clinical notes
(PubMed, arXiv, and MIMIC-III) using DeBERTa-v3, PubMedBERT, and BioELECTRA
backbones. This is followed by task-specific fine-tuning with LoRA, which
updates less than 1.5% of model parameters. We evaluate our models on 12
established biomedical NER benchmarks spanning chemicals, diseases, genes, and
species. OpenMed NER achieves new state-of-the-art micro-F1 scores on 10 of
these 12 datasets, with substantial gains across diverse entity types. Our
models advance the state-of-the-art on foundational disease and chemical
benchmarks (e.g., BC5CDR-Disease, +2.70 pp), while delivering even larger
improvements of over 5.3 and 9.7 percentage points on more specialized gene and
clinical cell line corpora. This work demonstrates that strategically adapted
open-source models can surpass closed-source solutions. This performance is
achieved with remarkable efficiency: training completes in under 12 hours on a
single GPU with a low carbon footprint (< 1.2 kg CO2e), producing permissively
licensed, open-source checkpoints designed to help practitioners facilitate
compliance with emerging data protection and AI regulations, such as the EU AI
Act.