Verbetering van Abnormale Gronding voor Visuele Taalmodellen met Kennisbeschrijvingen

Samenvatting

Visuele Taalmodellen (VLMs) hebben indrukwekkende capaciteiten getoond in visuele grondingstaken. Hun effectiviteit in het medische domein, met name voor het detecteren en lokaliseren van afwijkingen in medische beelden, blijft echter onderbelicht. Een grote uitdaging is de complexe en abstracte aard van medische terminologie, waardoor het moeilijk is om pathologische afwijkingstermen direct te koppelen aan hun bijbehorende visuele kenmerken. In dit werk introduceren we een nieuwe aanpak om de prestaties van VLMs in het detecteren en lokaliseren van medische afwijkingen te verbeteren door gebruik te maken van gedecentraliseerde medische kennis. In plaats van modellen direct aan te sturen om specifieke afwijkingen te herkennen, richten we ons op het opdelen van medische concepten in fundamentele attributen en veelvoorkomende visuele patronen. Deze strategie bevordert een sterkere afstemming tussen tekstuele beschrijvingen en visuele kenmerken, wat zowel de herkenning als de lokalisatie van afwijkingen in medische beelden verbetert. We evalueren onze methode op het 0.23B Florence-2 basismodel en laten zien dat het vergelijkbare prestaties behaalt in het gronden van afwijkingen met aanzienlijk grotere 7B LLaVA-gebaseerde medische VLMs, ondanks dat het getraind is op slechts 1,5% van de data die voor dergelijke modellen wordt gebruikt. Experimentele resultaten tonen ook de effectiviteit van onze aanpak aan bij zowel bekende als voorheen onbekende afwijkingen, wat wijst op sterke generalisatiecapaciteiten.

English

Visual Language Models (VLMs) have demonstrated impressive capabilities in visual grounding tasks. However, their effectiveness in the medical domain, particularly for abnormality detection and localization within medical images, remains underexplored. A major challenge is the complex and abstract nature of medical terminology, which makes it difficult to directly associate pathological anomaly terms with their corresponding visual features. In this work, we introduce a novel approach to enhance VLM performance in medical abnormality detection and localization by leveraging decomposed medical knowledge. Instead of directly prompting models to recognize specific abnormalities, we focus on breaking down medical concepts into fundamental attributes and common visual patterns. This strategy promotes a stronger alignment between textual descriptions and visual features, improving both the recognition and localization of abnormalities in medical images.We evaluate our method on the 0.23B Florence-2 base model and demonstrate that it achieves comparable performance in abnormality grounding to significantly larger 7B LLaVA-based medical VLMs, despite being trained on only 1.5% of the data used for such models. Experimental results also demonstrate the effectiveness of our approach in both known and previously unseen abnormalities, suggesting its strong generalization capabilities.

Verbetering van Abnormale Gronding voor Visuele Taalmodellen met Kennisbeschrijvingen

Enhancing Abnormality Grounding for Vision Language Models with Knowledge Descriptions

Samenvatting

Support