ChatPaper.aiChatPaper

Clinical ModernBERT: 생체의학 텍스트를 위한 효율적이고 긴 문맥 인코더

Clinical ModernBERT: An efficient and long context encoder for biomedical text

April 4, 2025
저자: Simon A. Lee, Anthony Wu, Jeffrey N. Chiang
cs.AI

초록

우리는 대규모 생물의학 문헌, 임상 노트, 의학 온톨로지를 기반으로 사전 학습된 트랜스포머 기반 인코더인 Clinical ModernBERT를 소개합니다. 이 모델은 PubMed 초록, MIMIC IV 임상 데이터, 그리고 텍스트 설명이 포함된 의학 코드를 통합하여 구축되었습니다. 최신 자연어 텍스트 인코더인 ModernBERT를 기반으로, 회전 위치 임베딩(RoPE), Flash Attention, 그리고 최대 8,192 토큰까지 확장된 컨텍스트 길이와 같은 아키텍처 업그레이드를 포함한 최신 기술을 생물의학 및 임상 도메인에 특화하여 적용했습니다. Clinical ModernBERT는 장문 컨텍스트 작업에 적합한 의미론적으로 풍부한 표현을 생성하는 데 탁월한 성능을 보입니다. 우리는 사전 학습된 가중치를 분석하고, 포괄적인 임상 NLP 벤치마크를 통해 실험적으로 평가함으로써 이를 검증했습니다.
English
We introduce Clinical ModernBERT, a transformer based encoder pretrained on large scale biomedical literature, clinical notes, and medical ontologies, incorporating PubMed abstracts, MIMIC IV clinical data, and medical codes with their textual descriptions. Building on ModernBERT the current state of the art natural language text encoder featuring architectural upgrades such as rotary positional embeddings (RoPE), Flash Attention, and extended context length up to 8,192 tokens our model adapts these innovations specifically for biomedical and clinical domains. Clinical ModernBERT excels at producing semantically rich representations tailored for long context tasks. We validate this both by analyzing its pretrained weights and through empirical evaluation on a comprehensive suite of clinical NLP benchmarks.

Summary

AI-Generated Summary

PDF52April 8, 2025