Aprimorando a Detecção de Anomalias em Modelos de Linguagem Visual com Descrições de Conhecimento
Enhancing Abnormality Grounding for Vision Language Models with Knowledge Descriptions
March 5, 2025
Autores: Jun Li, Che Liu, Wenjia Bai, Rossella Arcucci, Cosmin I. Bercea, Julia A. Schnabel
cs.AI
Resumo
Os Modelos de Linguagem Visual (VLMs) têm demonstrado capacidades impressionantes em tarefas de ancoragem visual. No entanto, sua eficácia no domínio médico, particularmente para detecção e localização de anormalidades em imagens médicas, permanece pouco explorada. Um grande desafio é a natureza complexa e abstrata da terminologia médica, o que dificulta a associação direta de termos de anomalias patológicas com suas características visuais correspondentes. Neste trabalho, introduzimos uma abordagem inovadora para aprimorar o desempenho de VLMs na detecção e localização de anormalidades médicas, aproveitando o conhecimento médico decomposto. Em vez de solicitar diretamente que os modelos reconheçam anormalidades específicas, focamos em decompor conceitos médicos em atributos fundamentais e padrões visuais comuns. Essa estratégia promove um alinhamento mais forte entre descrições textuais e características visuais, melhorando tanto o reconhecimento quanto a localização de anormalidades em imagens médicas. Avaliamos nosso método no modelo base Florence-2 de 0,23B e demonstramos que ele alcança desempenho comparável na ancoragem de anormalidades a VLMs médicos baseados em LLaVA de 7B significativamente maiores, apesar de ser treinado com apenas 1,5% dos dados utilizados para tais modelos. Os resultados experimentais também demonstram a eficácia de nossa abordagem tanto em anormalidades conhecidas quanto em anormalidades previamente não vistas, sugerindo suas fortes capacidades de generalização.
English
Visual Language Models (VLMs) have demonstrated impressive capabilities in
visual grounding tasks. However, their effectiveness in the medical domain,
particularly for abnormality detection and localization within medical images,
remains underexplored. A major challenge is the complex and abstract nature of
medical terminology, which makes it difficult to directly associate
pathological anomaly terms with their corresponding visual features. In this
work, we introduce a novel approach to enhance VLM performance in medical
abnormality detection and localization by leveraging decomposed medical
knowledge. Instead of directly prompting models to recognize specific
abnormalities, we focus on breaking down medical concepts into fundamental
attributes and common visual patterns. This strategy promotes a stronger
alignment between textual descriptions and visual features, improving both the
recognition and localization of abnormalities in medical images.We evaluate our
method on the 0.23B Florence-2 base model and demonstrate that it achieves
comparable performance in abnormality grounding to significantly larger 7B
LLaVA-based medical VLMs, despite being trained on only 1.5% of the data used
for such models. Experimental results also demonstrate the effectiveness of our
approach in both known and previously unseen abnormalities, suggesting its
strong generalization capabilities.Summary
AI-Generated Summary