Clinical ModernBERT: Un codificador eficiente y de contexto extenso para texto biomédico
Clinical ModernBERT: An efficient and long context encoder for biomedical text
April 4, 2025
Autores: Simon A. Lee, Anthony Wu, Jeffrey N. Chiang
cs.AI
Resumen
Presentamos Clinical ModernBERT, un codificador basado en transformadores preentrenado en literatura biomédica a gran escala, notas clínicas y ontologías médicas, incorporando resúmenes de PubMed, datos clínicos de MIMIC IV y códigos médicos con sus descripciones textuales. Basándonos en ModernBERT, el codificador de texto de lenguaje natural más avanzado actualmente, que incluye mejoras arquitectónicas como embeddings posicionales rotatorios (RoPE), Flash Attention y una longitud de contexto extendida de hasta 8,192 tokens, nuestro modelo adapta estas innovaciones específicamente para los dominios biomédicos y clínicos. Clinical ModernBERT destaca en la producción de representaciones semánticamente ricas diseñadas para tareas de contexto largo. Validamos esto tanto mediante el análisis de sus pesos preentrenados como a través de evaluaciones empíricas en un conjunto exhaustivo de benchmarks de NLP clínico.
English
We introduce Clinical ModernBERT, a transformer based encoder pretrained on
large scale biomedical literature, clinical notes, and medical ontologies,
incorporating PubMed abstracts, MIMIC IV clinical data, and medical codes with
their textual descriptions. Building on ModernBERT the current state of the art
natural language text encoder featuring architectural upgrades such as rotary
positional embeddings (RoPE), Flash Attention, and extended context length up
to 8,192 tokens our model adapts these innovations specifically for biomedical
and clinical domains. Clinical ModernBERT excels at producing semantically rich
representations tailored for long context tasks. We validate this both by
analyzing its pretrained weights and through empirical evaluation on a
comprehensive suite of clinical NLP benchmarks.Summary
AI-Generated Summary