OpenMed NER: Открытые, адаптированные для предметной области передовые модели Transformers для распознавания именованных сущностей в биомедицинских текстах на 12 публичных наборах данных
OpenMed NER: Open-Source, Domain-Adapted State-of-the-Art Transformers for Biomedical NER Across 12 Public Datasets
August 3, 2025
Авторы: Maziyar Panahi
cs.AI
Аннотация
Распознавание именованных сущностей (NER) является основополагающим для извлечения структурированной информации из более чем 80% медицинских данных, которые содержатся в неструктурированных клинических записях и биомедицинской литературе. Несмотря на недавние достижения в области крупных языковых моделей, достижение наилучших результатов для различных типов сущностей при сохранении вычислительной эффективности остается значительной проблемой. Мы представляем OpenMed NER — набор открытых, адаптированных для предметной области трансформерных моделей, которые сочетают легковесное предварительное обучение с адаптацией к домену (DAPT) с параметрически эффективной адаптацией низкого ранга (LoRA). Наш подход включает экономически эффективное DAPT на корпусе из 350 тысяч текстов, собранных из этически полученных, общедоступных исследовательских репозиториев и анонимизированных клинических записей (PubMed, arXiv и MIMIC-III), с использованием архитектур DeBERTa-v3, PubMedBERT и BioELECTRA. За этим следует тонкая настройка для конкретной задачи с использованием LoRA, которая обновляет менее 1,5% параметров модели. Мы оцениваем наши модели на 12 установленных биомедицинских бенчмарках NER, охватывающих химические вещества, заболевания, гены и виды. OpenMed NER достигает новых наилучших показателей микро-F1 на 10 из этих 12 наборов данных, с существенным улучшением для различных типов сущностей. Наши модели продвигают состояние искусства на фундаментальных бенчмарках по заболеваниям и химическим веществам (например, BC5CDR-Disease, +2,70 п.п.), при этом демонстрируя еще большее улучшение на более специализированных корпусах генов и клинических клеточных линий — более чем на 5,3 и 9,7 процентных пунктов соответственно. Эта работа демонстрирует, что стратегически адаптированные открытые модели могут превзойти закрытые решения. Такая производительность достигается с замечательной эффективностью: обучение завершается менее чем за 12 часов на одной видеокарте с низким углеродным следом (< 1,2 кг CO2e), создавая открытые контрольные точки с разрешительными лицензиями, предназначенные для помощи специалистам в соблюдении новых норм защиты данных и регулирования ИИ, таких как Закон ЕС об ИИ.
English
Named-entity recognition (NER) is fundamental to extracting structured
information from the >80% of healthcare data that resides in unstructured
clinical notes and biomedical literature. Despite recent advances with large
language models, achieving state-of-the-art performance across diverse entity
types while maintaining computational efficiency remains a significant
challenge. We introduce OpenMed NER, a suite of open-source, domain-adapted
transformer models that combine lightweight domain-adaptive pre-training (DAPT)
with parameter-efficient Low-Rank Adaptation (LoRA). Our approach performs
cost-effective DAPT on a 350k-passage corpus compiled from ethically sourced,
publicly available research repositories and de-identified clinical notes
(PubMed, arXiv, and MIMIC-III) using DeBERTa-v3, PubMedBERT, and BioELECTRA
backbones. This is followed by task-specific fine-tuning with LoRA, which
updates less than 1.5% of model parameters. We evaluate our models on 12
established biomedical NER benchmarks spanning chemicals, diseases, genes, and
species. OpenMed NER achieves new state-of-the-art micro-F1 scores on 10 of
these 12 datasets, with substantial gains across diverse entity types. Our
models advance the state-of-the-art on foundational disease and chemical
benchmarks (e.g., BC5CDR-Disease, +2.70 pp), while delivering even larger
improvements of over 5.3 and 9.7 percentage points on more specialized gene and
clinical cell line corpora. This work demonstrates that strategically adapted
open-source models can surpass closed-source solutions. This performance is
achieved with remarkable efficiency: training completes in under 12 hours on a
single GPU with a low carbon footprint (< 1.2 kg CO2e), producing permissively
licensed, open-source checkpoints designed to help practitioners facilitate
compliance with emerging data protection and AI regulations, such as the EU AI
Act.