OpenMed NER: 12개 공개 데이터셋에 걸친 생의학 NER을 위한 오픈소스, 도메인 적응형 최첨단 트랜스포머
OpenMed NER: Open-Source, Domain-Adapted State-of-the-Art Transformers for Biomedical NER Across 12 Public Datasets
August 3, 2025
저자: Maziyar Panahi
cs.AI
초록
명명된 개체 인식(Named-entity recognition, NER)은 구조화되지 않은 임상 노트와 생의학 문헌에 존재하는 의료 데이터의 80% 이상에서 구조화된 정보를 추출하는 데 필수적인 기술입니다. 대규모 언어 모델의 최근 발전에도 불구하고, 다양한 개체 유형에서 최첨단 성능을 달성하면서도 계산 효율성을 유지하는 것은 여전히 중요한 과제로 남아 있습니다. 우리는 OpenMed NER을 소개합니다. 이는 경량화된 도메인 적응 사전 학습(Domain-Adaptive Pre-Training, DAPT)과 매개변수 효율적인 Low-Rank Adaptation(LoRA)을 결합한 오픈소스, 도메인 적응형 트랜스포머 모델 제품군입니다. 우리의 접근 방식은 윤리적으로 수집된 공개 연구 저장소와 비식별화된 임상 노트(PubMed, arXiv, MIMIC-III)에서 컴파일된 35만 개의 텍스트 코퍼스에 대해 DeBERTa-v3, PubMedBERT, BioELECTRA 백본을 사용하여 비용 효율적인 DAPT를 수행합니다. 이어서 LoRA를 사용한 작업별 미세 조정을 통해 모델 매개변수의 1.5% 미만만 업데이트합니다. 우리는 화학물질, 질병, 유전자, 종을 포함한 12개의 확립된 생의학 NER 벤치마크에서 모델을 평가합니다. OpenMed NER은 이 12개 데이터셋 중 10개에서 새로운 최첨단 micro-F1 점수를 달성하며, 다양한 개체 유형에서 상당한 성능 향상을 보여줍니다. 우리의 모델은 기본적인 질병 및 화학물질 벤치마크(예: BC5CDR-Disease, +2.70 pp)에서 최첨단 성능을 개선하는 한편, 더 전문화된 유전자 및 임상 세포주 코퍼스에서는 각각 5.3%와 9.7% 이상의 더 큰 성능 향상을 제공합니다. 이 작업은 전략적으로 적응된 오픈소스 모델이 클로즈드소스 솔루션을 능가할 수 있음을 보여줍니다. 이러한 성능은 놀라운 효율성으로 달성되었습니다: 단일 GPU에서 12시간 이내에 학습이 완료되며, 낮은 탄소 배출량(< 1.2 kg CO2e)을 보이고, EU AI Act과 같은 신흥 데이터 보호 및 AI 규정 준수를 지원하기 위해 설계된 허가형 오픈소스 체크포인트를 생성합니다.
English
Named-entity recognition (NER) is fundamental to extracting structured
information from the >80% of healthcare data that resides in unstructured
clinical notes and biomedical literature. Despite recent advances with large
language models, achieving state-of-the-art performance across diverse entity
types while maintaining computational efficiency remains a significant
challenge. We introduce OpenMed NER, a suite of open-source, domain-adapted
transformer models that combine lightweight domain-adaptive pre-training (DAPT)
with parameter-efficient Low-Rank Adaptation (LoRA). Our approach performs
cost-effective DAPT on a 350k-passage corpus compiled from ethically sourced,
publicly available research repositories and de-identified clinical notes
(PubMed, arXiv, and MIMIC-III) using DeBERTa-v3, PubMedBERT, and BioELECTRA
backbones. This is followed by task-specific fine-tuning with LoRA, which
updates less than 1.5% of model parameters. We evaluate our models on 12
established biomedical NER benchmarks spanning chemicals, diseases, genes, and
species. OpenMed NER achieves new state-of-the-art micro-F1 scores on 10 of
these 12 datasets, with substantial gains across diverse entity types. Our
models advance the state-of-the-art on foundational disease and chemical
benchmarks (e.g., BC5CDR-Disease, +2.70 pp), while delivering even larger
improvements of over 5.3 and 9.7 percentage points on more specialized gene and
clinical cell line corpora. This work demonstrates that strategically adapted
open-source models can surpass closed-source solutions. This performance is
achieved with remarkable efficiency: training completes in under 12 hours on a
single GPU with a low carbon footprint (< 1.2 kg CO2e), producing permissively
licensed, open-source checkpoints designed to help practitioners facilitate
compliance with emerging data protection and AI regulations, such as the EU AI
Act.