MedVisionLlama: Het benutten van vooraf getrainde grote taalmodellagen om de segmentatie van medische beelden te verbeteren
MedVisionLlama: Leveraging Pre-Trained Large Language Model Layers to Enhance Medical Image Segmentation
October 3, 2024
Auteurs: Gurucharan Marthi Krishna Kumar, Aman Chadha, Janine Mendola, Amir Shmuel
cs.AI
Samenvatting
Grote Taalmodellen (LLM's), bekend om hun veelzijdigheid in tekstuele data, worden steeds vaker onderzocht vanwege hun potentieel om de segmentatie van medische beelden te verbeteren, een cruciale taak voor nauwkeurige diagnostische beeldvorming. Deze studie onderzoekt het verbeteren van Vision Transformers (ViTs) voor de segmentatie van medische beelden door het integreren van vooraf getrainde LLM-transformatorblokken. Onze benadering, die een bevroren LLM-transformatorblok opneemt in de encoder van een op ViT gebaseerd model, leidt tot aanzienlijke verbeteringen in de segmentatieprestaties over verschillende medische beeldvormingsmodaliteiten. We stellen een Hybride Aandachtsmechanisme voor dat wereldwijde en lokale kenmerkleren combineert met een Multi-Scale Fusieblok voor het samenvoegen van kenmerken over verschillende schalen. Het verbeterde model toont aanzienlijke prestatieverbeteringen, waaronder een gemiddelde Dice-scoreverhoging van 0,74 naar 0,79 en verbeteringen in nauwkeurigheid, precisie en de Jaccard-index. Deze resultaten tonen de effectiviteit van op LLM gebaseerde transformers bij het verfijnen van de segmentatie van medische beelden, waarbij hun potentieel wordt benadrukt om de modelnauwkeurigheid en robuustheid aanzienlijk te verbeteren. De broncode en onze implementatie zijn beschikbaar op: https://bit.ly/3zf2CVs
English
Large Language Models (LLMs), known for their versatility in textual data,
are increasingly being explored for their potential to enhance medical image
segmentation, a crucial task for accurate diagnostic imaging. This study
explores enhancing Vision Transformers (ViTs) for medical image segmentation by
integrating pre-trained LLM transformer blocks. Our approach, which
incorporates a frozen LLM transformer block into the encoder of a ViT-based
model, leads to substantial improvements in segmentation performance across
various medical imaging modalities. We propose a Hybrid Attention Mechanism
that combines global and local feature learning with a Multi-Scale Fusion Block
for aggregating features across different scales. The enhanced model shows
significant performance gains, including an average Dice score increase from
0.74 to 0.79 and improvements in accuracy, precision, and the Jaccard Index.
These results demonstrate the effectiveness of LLM-based transformers in
refining medical image segmentation, highlighting their potential to
significantly boost model accuracy and robustness. The source code and our
implementation are available at: https://bit.ly/3zf2CVsSummary
AI-Generated Summary