Clinical ModernBERT: バイオメディカルテキスト向けの効率的で長文対応エンコーダ
Clinical ModernBERT: An efficient and long context encoder for biomedical text
April 4, 2025
著者: Simon A. Lee, Anthony Wu, Jeffrey N. Chiang
cs.AI
要旨
私たちはClinical ModernBERTを紹介します。これは、大規模な生物医学文献、臨床ノート、および医学オントロジーに基づいて事前学習されたトランスフォーマーベースのエンコーダーであり、PubMedの抄録、MIMIC IVの臨床データ、およびテキスト記述付きの医療コードを組み込んでいます。本モデルは、回転位置埋め込み(RoPE)、Flash Attention、最大8,192トークンまでの拡張コンテキスト長などのアーキテクチャ的改良を特徴とする現状最先端の自然言語テキストエンコーダーであるModernBERTを基盤としており、これらの革新を特に生物医学および臨床領域に適応させています。Clinical ModernBERTは、長文コンテキストタスクに特化した意味的に豊かな表現を生成する点で優れています。私たちは、事前学習された重みの分析と、包括的な臨床NLPベンチマークでの実証評価を通じて、これを検証しました。
English
We introduce Clinical ModernBERT, a transformer based encoder pretrained on
large scale biomedical literature, clinical notes, and medical ontologies,
incorporating PubMed abstracts, MIMIC IV clinical data, and medical codes with
their textual descriptions. Building on ModernBERT the current state of the art
natural language text encoder featuring architectural upgrades such as rotary
positional embeddings (RoPE), Flash Attention, and extended context length up
to 8,192 tokens our model adapts these innovations specifically for biomedical
and clinical domains. Clinical ModernBERT excels at producing semantically rich
representations tailored for long context tasks. We validate this both by
analyzing its pretrained weights and through empirical evaluation on a
comprehensive suite of clinical NLP benchmarks.Summary
AI-Generated Summary