ChatPaper.aiChatPaper

Clinical ModernBERT: バイオメディカルテキスト向けの効率的で長文対応エンコーダ

Clinical ModernBERT: An efficient and long context encoder for biomedical text

April 4, 2025
著者: Simon A. Lee, Anthony Wu, Jeffrey N. Chiang
cs.AI

要旨

私たちはClinical ModernBERTを紹介します。これは、大規模な生物医学文献、臨床ノート、および医学オントロジーに基づいて事前学習されたトランスフォーマーベースのエンコーダーであり、PubMedの抄録、MIMIC IVの臨床データ、およびテキスト記述付きの医療コードを組み込んでいます。本モデルは、回転位置埋め込み(RoPE)、Flash Attention、最大8,192トークンまでの拡張コンテキスト長などのアーキテクチャ的改良を特徴とする現状最先端の自然言語テキストエンコーダーであるModernBERTを基盤としており、これらの革新を特に生物医学および臨床領域に適応させています。Clinical ModernBERTは、長文コンテキストタスクに特化した意味的に豊かな表現を生成する点で優れています。私たちは、事前学習された重みの分析と、包括的な臨床NLPベンチマークでの実証評価を通じて、これを検証しました。
English
We introduce Clinical ModernBERT, a transformer based encoder pretrained on large scale biomedical literature, clinical notes, and medical ontologies, incorporating PubMed abstracts, MIMIC IV clinical data, and medical codes with their textual descriptions. Building on ModernBERT the current state of the art natural language text encoder featuring architectural upgrades such as rotary positional embeddings (RoPE), Flash Attention, and extended context length up to 8,192 tokens our model adapts these innovations specifically for biomedical and clinical domains. Clinical ModernBERT excels at producing semantically rich representations tailored for long context tasks. We validate this both by analyzing its pretrained weights and through empirical evaluation on a comprehensive suite of clinical NLP benchmarks.

Summary

AI-Generated Summary

PDF52April 8, 2025