Clinical ModernBERT: Ein effizienter Encoder mit langem Kontext für biomedizinische Texte

papers.abstract

Wir stellen Clinical ModernBERT vor, einen auf Transformer basierenden Encoder, der auf umfangreicher biomedizinischer Literatur, klinischen Notizen und medizinischen Ontologien vortrainiert wurde und dabei PubMed-Abstracts, MIMIC-IV-Klinikdaten sowie medizinische Codes mit ihren textuellen Beschreibungen einbezieht. Basierend auf ModernBERT, dem derzeitigen State-of-the-Art-Textencoder für natürliche Sprache, der architektonische Verbesserungen wie Rotary Positional Embeddings (RoPE), Flash Attention und eine erweiterte Kontextlänge von bis zu 8.192 Tokens bietet, passt unser Modell diese Innovationen speziell für biomedizinische und klinische Domänen an. Clinical ModernBERT zeichnet sich durch die Erzeugung semantisch reicher Repräsentationen aus, die für Aufgaben mit langem Kontext optimiert sind. Dies validieren wir sowohl durch die Analyse seiner vortrainierten Gewichte als auch durch empirische Evaluierung auf einer umfassenden Suite von klinischen NLP-Benchmarks.

English

We introduce Clinical ModernBERT, a transformer based encoder pretrained on large scale biomedical literature, clinical notes, and medical ontologies, incorporating PubMed abstracts, MIMIC IV clinical data, and medical codes with their textual descriptions. Building on ModernBERT the current state of the art natural language text encoder featuring architectural upgrades such as rotary positional embeddings (RoPE), Flash Attention, and extended context length up to 8,192 tokens our model adapts these innovations specifically for biomedical and clinical domains. Clinical ModernBERT excels at producing semantically rich representations tailored for long context tasks. We validate this both by analyzing its pretrained weights and through empirical evaluation on a comprehensive suite of clinical NLP benchmarks.

Clinical ModernBERT: Ein effizienter Encoder mit langem Kontext für biomedizinische Texte

Clinical ModernBERT: An efficient and long context encoder for biomedical text

papers.abstract

Support