Clinical ModernBERT : Un encodeur efficace et à contexte étendu pour le texte biomédical
Clinical ModernBERT: An efficient and long context encoder for biomedical text
April 4, 2025
Auteurs: Simon A. Lee, Anthony Wu, Jeffrey N. Chiang
cs.AI
Résumé
Nous présentons Clinical ModernBERT, un encodeur basé sur des transformateurs pré-entraîné sur une vaste littérature biomédicale, des notes cliniques et des ontologies médicales, intégrant des résumés PubMed, des données cliniques MIMIC IV et des codes médicaux avec leurs descriptions textuelles. S'appuyant sur ModernBERT, l'encodeur de texte en langage naturel actuellement à la pointe de la technologie, qui intègre des améliorations architecturales telles que les embeddings positionnels rotatifs (RoPE), l'attention Flash et une longueur de contexte étendue jusqu'à 8 192 tokens, notre modèle adapte ces innovations spécifiquement aux domaines biomédical et clinique. Clinical ModernBERT excelle dans la production de représentations sémantiquement riches adaptées aux tâches nécessitant un contexte long. Nous validons cela à la fois par l'analyse de ses poids pré-entraînés et par une évaluation empirique sur un ensemble complet de benchmarks en traitement du langage naturel clinique.
English
We introduce Clinical ModernBERT, a transformer based encoder pretrained on
large scale biomedical literature, clinical notes, and medical ontologies,
incorporating PubMed abstracts, MIMIC IV clinical data, and medical codes with
their textual descriptions. Building on ModernBERT the current state of the art
natural language text encoder featuring architectural upgrades such as rotary
positional embeddings (RoPE), Flash Attention, and extended context length up
to 8,192 tokens our model adapts these innovations specifically for biomedical
and clinical domains. Clinical ModernBERT excels at producing semantically rich
representations tailored for long context tasks. We validate this both by
analyzing its pretrained weights and through empirical evaluation on a
comprehensive suite of clinical NLP benchmarks.Summary
AI-Generated Summary