ChatPaper.aiChatPaper

OpenMed NER : Transformers Open-Source, Adaptés au Domaine et à la Pointe de la Technologie pour la Reconnaissance d'Entités Nommées Biomédicales sur 12 Jeux de Données Publics

OpenMed NER: Open-Source, Domain-Adapted State-of-the-Art Transformers for Biomedical NER Across 12 Public Datasets

August 3, 2025
papers.authors: Maziyar Panahi
cs.AI

papers.abstract

La reconnaissance d'entités nommées (NER) est fondamentale pour extraire des informations structurées des plus de 80 % de données de santé résidant dans les notes cliniques non structurées et la littérature biomédicale. Malgré les récents progrès des grands modèles de langage, atteindre des performances de pointe sur divers types d'entités tout en maintenant une efficacité computationnelle reste un défi majeur. Nous présentons OpenMed NER, une suite de modèles transformateurs open source adaptés au domaine, combinant un pré-entraînement léger adaptatif au domaine (DAPT) avec l'adaptation efficace en paramètres Low-Rank Adaptation (LoRA). Notre approche effectue un DAPT rentable sur un corpus de 350 000 passages compilé à partir de dépôts de recherche éthiquement sourcés et accessibles au public, ainsi que de notes cliniques anonymisées (PubMed, arXiv et MIMIC-III), en utilisant les architectures DeBERTa-v3, PubMedBERT et BioELECTRA. Cela est suivi d'un ajustement spécifique à la tâche avec LoRA, qui met à jour moins de 1,5 % des paramètres du modèle. Nous évaluons nos modèles sur 12 benchmarks établis de NER biomédicale couvrant les produits chimiques, les maladies, les gènes et les espèces. OpenMed NER atteint de nouveaux scores micro-F1 de pointe sur 10 de ces 12 ensembles de données, avec des gains substantiels sur divers types d'entités. Nos modèles améliorent l'état de l'art sur des benchmarks fondamentaux pour les maladies et les produits chimiques (par exemple, BC5CDR-Disease, +2,70 pp), tout en offrant des améliorations encore plus importantes de plus de 5,3 et 9,7 points de pourcentage sur des corpus plus spécialisés de gènes et de lignées cellulaires cliniques. Ce travail démontre que des modèles open source stratégiquement adaptés peuvent surpasser les solutions propriétaires. Cette performance est atteinte avec une efficacité remarquable : l'entraînement se termine en moins de 12 heures sur un seul GPU avec une faible empreinte carbone (< 1,2 kg CO2e), produisant des points de contrôle open source sous licence permissive conçus pour aider les praticiens à se conformer aux réglementations émergentes sur la protection des données et l'IA, telles que la loi européenne sur l'IA.
English
Named-entity recognition (NER) is fundamental to extracting structured information from the >80% of healthcare data that resides in unstructured clinical notes and biomedical literature. Despite recent advances with large language models, achieving state-of-the-art performance across diverse entity types while maintaining computational efficiency remains a significant challenge. We introduce OpenMed NER, a suite of open-source, domain-adapted transformer models that combine lightweight domain-adaptive pre-training (DAPT) with parameter-efficient Low-Rank Adaptation (LoRA). Our approach performs cost-effective DAPT on a 350k-passage corpus compiled from ethically sourced, publicly available research repositories and de-identified clinical notes (PubMed, arXiv, and MIMIC-III) using DeBERTa-v3, PubMedBERT, and BioELECTRA backbones. This is followed by task-specific fine-tuning with LoRA, which updates less than 1.5% of model parameters. We evaluate our models on 12 established biomedical NER benchmarks spanning chemicals, diseases, genes, and species. OpenMed NER achieves new state-of-the-art micro-F1 scores on 10 of these 12 datasets, with substantial gains across diverse entity types. Our models advance the state-of-the-art on foundational disease and chemical benchmarks (e.g., BC5CDR-Disease, +2.70 pp), while delivering even larger improvements of over 5.3 and 9.7 percentage points on more specialized gene and clinical cell line corpora. This work demonstrates that strategically adapted open-source models can surpass closed-source solutions. This performance is achieved with remarkable efficiency: training completes in under 12 hours on a single GPU with a low carbon footprint (< 1.2 kg CO2e), producing permissively licensed, open-source checkpoints designed to help practitioners facilitate compliance with emerging data protection and AI regulations, such as the EU AI Act.
PDF44August 7, 2025