ChatPaper.aiChatPaper

MedVisionLlama : Exploiter les couches de modèles de langage pré-entraînés de grande taille pour améliorer la segmentation d'images médicales

MedVisionLlama: Leveraging Pre-Trained Large Language Model Layers to Enhance Medical Image Segmentation

October 3, 2024
Auteurs: Gurucharan Marthi Krishna Kumar, Aman Chadha, Janine Mendola, Amir Shmuel
cs.AI

Résumé

Les grands modèles de langage (LLM), connus pour leur polyvalence dans les données textuelles, sont de plus en plus explorés pour leur potentiel à améliorer la segmentation d'images médicales, une tâche cruciale pour l'imagerie diagnostique précise. Cette étude explore l'amélioration des Transformateurs de Vision (ViTs) pour la segmentation d'images médicales en intégrant des blocs de transformateurs LLM pré-entraînés. Notre approche, qui intègre un bloc de transformateur LLM figé dans l'encodeur d'un modèle basé sur ViT, entraîne des améliorations substantielles des performances de segmentation à travers différentes modalités d'imagerie médicale. Nous proposons un Mécanisme d'Attention Hybride qui combine l'apprentissage des caractéristiques globales et locales avec un Bloc de Fusion Multi-Échelle pour agréger les caractéristiques à différentes échelles. Le modèle amélioré montre des gains de performances significatifs, y compris une augmentation du score Dice moyen de 0,74 à 0,79 et des améliorations en termes de précision, d'exactitude et de l'Indice de Jaccard. Ces résultats démontrent l'efficacité des transformateurs basés sur les LLM dans le raffinement de la segmentation d'images médicales, mettant en avant leur potentiel pour améliorer significativement la précision et la robustesse des modèles. Le code source et notre implémentation sont disponibles sur : https://bit.ly/3zf2CVs
English
Large Language Models (LLMs), known for their versatility in textual data, are increasingly being explored for their potential to enhance medical image segmentation, a crucial task for accurate diagnostic imaging. This study explores enhancing Vision Transformers (ViTs) for medical image segmentation by integrating pre-trained LLM transformer blocks. Our approach, which incorporates a frozen LLM transformer block into the encoder of a ViT-based model, leads to substantial improvements in segmentation performance across various medical imaging modalities. We propose a Hybrid Attention Mechanism that combines global and local feature learning with a Multi-Scale Fusion Block for aggregating features across different scales. The enhanced model shows significant performance gains, including an average Dice score increase from 0.74 to 0.79 and improvements in accuracy, precision, and the Jaccard Index. These results demonstrate the effectiveness of LLM-based transformers in refining medical image segmentation, highlighting their potential to significantly boost model accuracy and robustness. The source code and our implementation are available at: https://bit.ly/3zf2CVs

Summary

AI-Generated Summary

PDF95November 16, 2024