ChatPaper.aiChatPaper

視覚言語モデルの異常検出能力を強化するための知識記述の活用

Enhancing Abnormality Grounding for Vision Language Models with Knowledge Descriptions

March 5, 2025
著者: Jun Li, Che Liu, Wenjia Bai, Rossella Arcucci, Cosmin I. Bercea, Julia A. Schnabel
cs.AI

要旨

視覚言語モデル(VLM)は、視覚的グラウンディングタスクにおいて印象的な能力を発揮してきました。しかし、医療分野、特に医療画像内の異常検出と位置特定における有効性は、まだ十分に検証されていません。主な課題は、医療用語の複雑で抽象的な性質であり、病理学的異常の用語を対応する視覚的特徴と直接関連付けることが困難です。本研究では、分解された医療知識を活用することで、医療異常検出と位置特定におけるVLMの性能を向上させる新しいアプローチを提案します。特定の異常を直接認識するようモデルに促す代わりに、医療概念を基本的な属性と共通の視覚的パターンに分解することに焦点を当てます。この戦略により、テキスト記述と視覚的特徴の間の整合性が強化され、医療画像内の異常の認識と位置特定の両方が改善されます。私たちは、0.23BのFlorence-2ベースモデルでこの手法を評価し、その異常グラウンディング性能が、はるかに大規模な7B LLaVAベースの医療VLMと同等であることを示します。また、そのようなモデルで使用されるデータのわずか1.5%で訓練されているにもかかわらず、既知の異常と未確認の異常の両方において、本手法の有効性が実験結果から示されており、強力な汎化能力が示唆されています。
English
Visual Language Models (VLMs) have demonstrated impressive capabilities in visual grounding tasks. However, their effectiveness in the medical domain, particularly for abnormality detection and localization within medical images, remains underexplored. A major challenge is the complex and abstract nature of medical terminology, which makes it difficult to directly associate pathological anomaly terms with their corresponding visual features. In this work, we introduce a novel approach to enhance VLM performance in medical abnormality detection and localization by leveraging decomposed medical knowledge. Instead of directly prompting models to recognize specific abnormalities, we focus on breaking down medical concepts into fundamental attributes and common visual patterns. This strategy promotes a stronger alignment between textual descriptions and visual features, improving both the recognition and localization of abnormalities in medical images.We evaluate our method on the 0.23B Florence-2 base model and demonstrate that it achieves comparable performance in abnormality grounding to significantly larger 7B LLaVA-based medical VLMs, despite being trained on only 1.5% of the data used for such models. Experimental results also demonstrate the effectiveness of our approach in both known and previously unseen abnormalities, suggesting its strong generalization capabilities.

Summary

AI-Generated Summary

PDF132March 6, 2025