MedVisionLlama: Aprovechando las capas de modelos de lenguaje grandes pre-entrenados para mejorar la segmentación de imágenes médicas
MedVisionLlama: Leveraging Pre-Trained Large Language Model Layers to Enhance Medical Image Segmentation
October 3, 2024
Autores: Gurucharan Marthi Krishna Kumar, Aman Chadha, Janine Mendola, Amir Shmuel
cs.AI
Resumen
Los Modelos de Lenguaje Grandes (LLMs), conocidos por su versatilidad en datos textuales, están siendo cada vez más explorados por su potencial para mejorar la segmentación de imágenes médicas, una tarea crucial para la precisión en la imagenología diagnóstica. Este estudio explora la mejora de los Transformadores de Visión (ViTs) para la segmentación de imágenes médicas mediante la integración de bloques de transformadores LLM pre-entrenados. Nuestro enfoque, que incorpora un bloque de transformador LLM congelado en el codificador de un modelo basado en ViT, conduce a mejoras sustanciales en el rendimiento de segmentación en diversas modalidades de imágenes médicas. Proponemos un Mecanismo de Atención Híbrido que combina el aprendizaje de características globales y locales con un Bloque de Fusión Multi-Escala para la agregación de características en diferentes escalas. El modelo mejorado muestra ganancias significativas en el rendimiento, incluido un aumento promedio en el puntaje Dice de 0.74 a 0.79 y mejoras en la precisión, exactitud y el Índice de Jaccard. Estos resultados demuestran la efectividad de los transformadores basados en LLM en la mejora de la segmentación de imágenes médicas, resaltando su potencial para aumentar significativamente la precisión y robustez del modelo. El código fuente y nuestra implementación están disponibles en: https://bit.ly/3zf2CVs
English
Large Language Models (LLMs), known for their versatility in textual data,
are increasingly being explored for their potential to enhance medical image
segmentation, a crucial task for accurate diagnostic imaging. This study
explores enhancing Vision Transformers (ViTs) for medical image segmentation by
integrating pre-trained LLM transformer blocks. Our approach, which
incorporates a frozen LLM transformer block into the encoder of a ViT-based
model, leads to substantial improvements in segmentation performance across
various medical imaging modalities. We propose a Hybrid Attention Mechanism
that combines global and local feature learning with a Multi-Scale Fusion Block
for aggregating features across different scales. The enhanced model shows
significant performance gains, including an average Dice score increase from
0.74 to 0.79 and improvements in accuracy, precision, and the Jaccard Index.
These results demonstrate the effectiveness of LLM-based transformers in
refining medical image segmentation, highlighting their potential to
significantly boost model accuracy and robustness. The source code and our
implementation are available at: https://bit.ly/3zf2CVsSummary
AI-Generated Summary