Verbetering van Abnormale Gronding voor Visuele Taalmodellen met Kennisbeschrijvingen
Enhancing Abnormality Grounding for Vision Language Models with Knowledge Descriptions
March 5, 2025
Auteurs: Jun Li, Che Liu, Wenjia Bai, Rossella Arcucci, Cosmin I. Bercea, Julia A. Schnabel
cs.AI
Samenvatting
Visuele Taalmodellen (VLMs) hebben indrukwekkende capaciteiten getoond in visuele grondingstaken. Hun effectiviteit in het medische domein, met name voor het detecteren en lokaliseren van afwijkingen in medische beelden, blijft echter onderbelicht. Een grote uitdaging is de complexe en abstracte aard van medische terminologie, waardoor het moeilijk is om pathologische afwijkingstermen direct te koppelen aan hun bijbehorende visuele kenmerken. In dit werk introduceren we een nieuwe aanpak om de prestaties van VLMs in het detecteren en lokaliseren van medische afwijkingen te verbeteren door gebruik te maken van gedecentraliseerde medische kennis. In plaats van modellen direct aan te sturen om specifieke afwijkingen te herkennen, richten we ons op het opdelen van medische concepten in fundamentele attributen en veelvoorkomende visuele patronen. Deze strategie bevordert een sterkere afstemming tussen tekstuele beschrijvingen en visuele kenmerken, wat zowel de herkenning als de lokalisatie van afwijkingen in medische beelden verbetert. We evalueren onze methode op het 0.23B Florence-2 basismodel en laten zien dat het vergelijkbare prestaties behaalt in het gronden van afwijkingen met aanzienlijk grotere 7B LLaVA-gebaseerde medische VLMs, ondanks dat het getraind is op slechts 1,5% van de data die voor dergelijke modellen wordt gebruikt. Experimentele resultaten tonen ook de effectiviteit van onze aanpak aan bij zowel bekende als voorheen onbekende afwijkingen, wat wijst op sterke generalisatiecapaciteiten.
English
Visual Language Models (VLMs) have demonstrated impressive capabilities in
visual grounding tasks. However, their effectiveness in the medical domain,
particularly for abnormality detection and localization within medical images,
remains underexplored. A major challenge is the complex and abstract nature of
medical terminology, which makes it difficult to directly associate
pathological anomaly terms with their corresponding visual features. In this
work, we introduce a novel approach to enhance VLM performance in medical
abnormality detection and localization by leveraging decomposed medical
knowledge. Instead of directly prompting models to recognize specific
abnormalities, we focus on breaking down medical concepts into fundamental
attributes and common visual patterns. This strategy promotes a stronger
alignment between textual descriptions and visual features, improving both the
recognition and localization of abnormalities in medical images.We evaluate our
method on the 0.23B Florence-2 base model and demonstrate that it achieves
comparable performance in abnormality grounding to significantly larger 7B
LLaVA-based medical VLMs, despite being trained on only 1.5% of the data used
for such models. Experimental results also demonstrate the effectiveness of our
approach in both known and previously unseen abnormalities, suggesting its
strong generalization capabilities.Summary
AI-Generated Summary