Aprimorando a Detecção de Anomalias em Modelos de Linguagem Visual com Descrições de Conhecimento

Resumo

Os Modelos de Linguagem Visual (VLMs) têm demonstrado capacidades impressionantes em tarefas de ancoragem visual. No entanto, sua eficácia no domínio médico, particularmente para detecção e localização de anormalidades em imagens médicas, permanece pouco explorada. Um grande desafio é a natureza complexa e abstrata da terminologia médica, o que dificulta a associação direta de termos de anomalias patológicas com suas características visuais correspondentes. Neste trabalho, introduzimos uma abordagem inovadora para aprimorar o desempenho de VLMs na detecção e localização de anormalidades médicas, aproveitando o conhecimento médico decomposto. Em vez de solicitar diretamente que os modelos reconheçam anormalidades específicas, focamos em decompor conceitos médicos em atributos fundamentais e padrões visuais comuns. Essa estratégia promove um alinhamento mais forte entre descrições textuais e características visuais, melhorando tanto o reconhecimento quanto a localização de anormalidades em imagens médicas. Avaliamos nosso método no modelo base Florence-2 de 0,23B e demonstramos que ele alcança desempenho comparável na ancoragem de anormalidades a VLMs médicos baseados em LLaVA de 7B significativamente maiores, apesar de ser treinado com apenas 1,5% dos dados utilizados para tais modelos. Os resultados experimentais também demonstram a eficácia de nossa abordagem tanto em anormalidades conhecidas quanto em anormalidades previamente não vistas, sugerindo suas fortes capacidades de generalização.

English

Visual Language Models (VLMs) have demonstrated impressive capabilities in visual grounding tasks. However, their effectiveness in the medical domain, particularly for abnormality detection and localization within medical images, remains underexplored. A major challenge is the complex and abstract nature of medical terminology, which makes it difficult to directly associate pathological anomaly terms with their corresponding visual features. In this work, we introduce a novel approach to enhance VLM performance in medical abnormality detection and localization by leveraging decomposed medical knowledge. Instead of directly prompting models to recognize specific abnormalities, we focus on breaking down medical concepts into fundamental attributes and common visual patterns. This strategy promotes a stronger alignment between textual descriptions and visual features, improving both the recognition and localization of abnormalities in medical images.We evaluate our method on the 0.23B Florence-2 base model and demonstrate that it achieves comparable performance in abnormality grounding to significantly larger 7B LLaVA-based medical VLMs, despite being trained on only 1.5% of the data used for such models. Experimental results also demonstrate the effectiveness of our approach in both known and previously unseen abnormalities, suggesting its strong generalization capabilities.

Aprimorando a Detecção de Anomalias em Modelos de Linguagem Visual com Descrições de Conhecimento

Enhancing Abnormality Grounding for Vision Language Models with Knowledge Descriptions

Resumo

Summary

Support

Support