Clinical ModernBERT : Un encodeur efficace et à contexte étendu pour le texte biomédical

papers.abstract

Nous présentons Clinical ModernBERT, un encodeur basé sur des transformateurs pré-entraîné sur une vaste littérature biomédicale, des notes cliniques et des ontologies médicales, intégrant des résumés PubMed, des données cliniques MIMIC IV et des codes médicaux avec leurs descriptions textuelles. S'appuyant sur ModernBERT, l'encodeur de texte en langage naturel actuellement à la pointe de la technologie, qui intègre des améliorations architecturales telles que les embeddings positionnels rotatifs (RoPE), l'attention Flash et une longueur de contexte étendue jusqu'à 8 192 tokens, notre modèle adapte ces innovations spécifiquement aux domaines biomédical et clinique. Clinical ModernBERT excelle dans la production de représentations sémantiquement riches adaptées aux tâches nécessitant un contexte long. Nous validons cela à la fois par l'analyse de ses poids pré-entraînés et par une évaluation empirique sur un ensemble complet de benchmarks en traitement du langage naturel clinique.

English

We introduce Clinical ModernBERT, a transformer based encoder pretrained on large scale biomedical literature, clinical notes, and medical ontologies, incorporating PubMed abstracts, MIMIC IV clinical data, and medical codes with their textual descriptions. Building on ModernBERT the current state of the art natural language text encoder featuring architectural upgrades such as rotary positional embeddings (RoPE), Flash Attention, and extended context length up to 8,192 tokens our model adapts these innovations specifically for biomedical and clinical domains. Clinical ModernBERT excels at producing semantically rich representations tailored for long context tasks. We validate this both by analyzing its pretrained weights and through empirical evaluation on a comprehensive suite of clinical NLP benchmarks.

Clinical ModernBERT : Un encodeur efficace et à contexte étendu pour le texte biomédical

Clinical ModernBERT: An efficient and long context encoder for biomedical text

papers.abstract

Support