ChatPaper.aiChatPaper

지식 설명을 활용한 비전 언어 모델의 이상 현상 근거 강화

Enhancing Abnormality Grounding for Vision Language Models with Knowledge Descriptions

March 5, 2025
저자: Jun Li, Che Liu, Wenjia Bai, Rossella Arcucci, Cosmin I. Bercea, Julia A. Schnabel
cs.AI

초록

시각 언어 모델(VLMs)은 시각적 기반 작업에서 인상적인 성능을 보여주고 있습니다. 그러나 의료 영역, 특히 의료 영상 내 이상 징후 탐지 및 위치 파악 작업에서의 효과는 아직 충분히 탐구되지 않았습니다. 주요 도전 과제는 의학 용어의 복잡하고 추상적인 특성으로 인해 병리학적 이상 징후 용어를 해당 시각적 특징과 직접적으로 연관시키기 어렵다는 점입니다. 본 연구에서는 분해된 의학 지식을 활용하여 의료 이상 징후 탐지 및 위치 파악 작업에서 VLM의 성능을 향상시키는 새로운 접근 방식을 소개합니다. 특정 이상 징후를 직접 인식하도록 모델을 프롬프팅하는 대신, 의학 개념을 기본 속성과 공통 시각 패턴으로 분해하는 데 초점을 맞춥니다. 이 전략은 텍스트 설명과 시각적 특징 간의 강력한 정렬을 촉진하여 의료 영상 내 이상 징후의 인식 및 위치 파악 성능을 개선합니다. 우리는 0.23B 규모의 Florence-2 기본 모델에서 이 방법을 평가하고, 훨씬 더 큰 7B LLaVA 기반 의료 VLMs에 사용된 데이터의 단 1.5%만으로 학습했음에도 불구하고 이상 징후 기반 작업에서 비슷한 성능을 달성함을 입증했습니다. 실험 결과는 또한 우리의 접근 방식이 알려진 이상 징후와 이전에 보지 못한 이상 징후 모두에서 효과적임을 보여주며, 강력한 일반화 능력을 시사합니다.
English
Visual Language Models (VLMs) have demonstrated impressive capabilities in visual grounding tasks. However, their effectiveness in the medical domain, particularly for abnormality detection and localization within medical images, remains underexplored. A major challenge is the complex and abstract nature of medical terminology, which makes it difficult to directly associate pathological anomaly terms with their corresponding visual features. In this work, we introduce a novel approach to enhance VLM performance in medical abnormality detection and localization by leveraging decomposed medical knowledge. Instead of directly prompting models to recognize specific abnormalities, we focus on breaking down medical concepts into fundamental attributes and common visual patterns. This strategy promotes a stronger alignment between textual descriptions and visual features, improving both the recognition and localization of abnormalities in medical images.We evaluate our method on the 0.23B Florence-2 base model and demonstrate that it achieves comparable performance in abnormality grounding to significantly larger 7B LLaVA-based medical VLMs, despite being trained on only 1.5% of the data used for such models. Experimental results also demonstrate the effectiveness of our approach in both known and previously unseen abnormalities, suggesting its strong generalization capabilities.

Summary

AI-Generated Summary

PDF132March 6, 2025