ChatPaper.aiChatPaper

Clinical ModernBERT: Un codificador eficiente y de contexto extenso para texto biomédico

Clinical ModernBERT: An efficient and long context encoder for biomedical text

April 4, 2025
Autores: Simon A. Lee, Anthony Wu, Jeffrey N. Chiang
cs.AI

Resumen

Presentamos Clinical ModernBERT, un codificador basado en transformadores preentrenado en literatura biomédica a gran escala, notas clínicas y ontologías médicas, incorporando resúmenes de PubMed, datos clínicos de MIMIC IV y códigos médicos con sus descripciones textuales. Basándonos en ModernBERT, el codificador de texto de lenguaje natural más avanzado actualmente, que incluye mejoras arquitectónicas como embeddings posicionales rotatorios (RoPE), Flash Attention y una longitud de contexto extendida de hasta 8,192 tokens, nuestro modelo adapta estas innovaciones específicamente para los dominios biomédicos y clínicos. Clinical ModernBERT destaca en la producción de representaciones semánticamente ricas diseñadas para tareas de contexto largo. Validamos esto tanto mediante el análisis de sus pesos preentrenados como a través de evaluaciones empíricas en un conjunto exhaustivo de benchmarks de NLP clínico.
English
We introduce Clinical ModernBERT, a transformer based encoder pretrained on large scale biomedical literature, clinical notes, and medical ontologies, incorporating PubMed abstracts, MIMIC IV clinical data, and medical codes with their textual descriptions. Building on ModernBERT the current state of the art natural language text encoder featuring architectural upgrades such as rotary positional embeddings (RoPE), Flash Attention, and extended context length up to 8,192 tokens our model adapts these innovations specifically for biomedical and clinical domains. Clinical ModernBERT excels at producing semantically rich representations tailored for long context tasks. We validate this both by analyzing its pretrained weights and through empirical evaluation on a comprehensive suite of clinical NLP benchmarks.

Summary

AI-Generated Summary

PDF52April 8, 2025