Neubewertung der visuellen Attribution für die Thorax-Röntgen-Bildanalyse in großen Vision-Language-Modellen

Zusammenfassung

Große visuelle Sprachmodelle (LVLMs) zeigen vielversprechende Ansätze für medizinische Anwendungen, doch ihre Unfähigkeit, Antworten zuverlässig auf visuelle Evidenz zu stützen, wirft ernste Bedenken hinsichtlich der klinischen Vertrauenswürdigkeit auf. Obwohl visuelle Attributionsmethoden häufig zur Erklärung von LVLM-Vorhersagen eingesetzt werden, ist weitgehend ungeprüft, ob diese Erklärungen tatsächlich die visuellen Belege widerspiegeln, die der Modellentscheidung zugrunde liegen – da Grundwahrheitsannotationen für die interne Modellbegründung in der Regel nicht verfügbar sind. Wir adressieren diese Frage für die Befundung von Röntgenaufnahmen des Brustkorbs (CXR), indem wir einen kausalen Bewertungsrahmen entwickeln, der nur solche CXR-VQA-Stichproben berücksichtigt, bei denen die von Experten annotierte Region durch kontrafaktische Bearbeitung als kausal für die Modellvorhersage verifiziert wird. Mit diesem Rahmen testen wir 11 Attributionsmethoden, sechs quelloffene LVLMs und zwei Ausgabemodi (direkte Antwort vs. schrittweise Begründung) und stellen fest, dass bestehende Attributionsmethoden oft nicht die von den LVLMs tatsächlich genutzte Evidenz identifizieren. Um dieses Defizit zu beheben, schlagen wir MedFocus vor, eine konzeptbasierte Attributionsmethode, die mittels unbalanciertem optimalen Transport klinisch bedeutsame anatomische Regionen lokalisiert und deren kausale Wirkung auf Modellausgaben durch gezielte Interventionen misst. MedFocus liefert räumliche, konzeptbezogene und tokenbezogene Attributionen und übertrifft vorherige Methoden deutlich – ein Schritt hin zu vertrauenswürdigerer Attribution für medizinische LVLMs. Unsere Daten und unser Code sind verfügbar unter https://github.com/gzxiong/medfocus/.

English

Large Vision Language Models (LVLMs) show promise in medical applications, but their inability to faithfully ground responses in visual evidence raises serious concerns about clinical trustworthiness. While visual attribution methods are widely used to explain LVLM predictions, whether these explanations actually reflect the visual evidence underlying the model's decision is largely unverified, since ground-truth annotations for internal model reasoning are typically unavailable. We address this question for chest X-ray (CXR) reasoning by developing a causal evaluation framework that retains only CXR-VQA samples for which the expert-annotated region is verified, via counterfactual editing, to be causally responsible for the model's prediction. Using this framework across 11 attribution methods, six open-source LVLMs, and two output modes (direct answer and step-by-step reasoning), we find that existing attribution methods often fail to identify the evidence used by LVLMs. To address this failure, we propose MedFocus, a concept-based attribution method that localizes clinically meaningful anatomical regions via unbalanced optimal transport and measures their causal effect on model outputs through targeted interventions. MedFocus produces spatial, concept-level, and token-level attributions and substantially outperforms prior methods, taking a step toward more trustworthy attribution for medical LVLMs. Our data and code are available at https://github.com/gzxiong/medfocus/.