Repenser l'attribution visuelle pour le raisonnement sur les radiographies thoraciques dans les grands modèles de vision-langage

Résumé

Les grands modèles de langage avec vision (LVLM) montrent un certain potentiel dans les applications médicales, mais leur incapacité à ancrer fidèlement leurs réponses dans des preuves visuelles soulève de sérieuses inquiétudes quant à leur fiabilité clinique. Bien que les méthodes d'attribution visuelle soient largement utilisées pour expliquer les prédictions des LVLM, la question de savoir si ces explications reflètent réellement les preuves visuelles sous-jacentes à la décision du modèle reste largement non vérifiée, car les annotations de vérité terrain pour le raisonnement interne du modèle ne sont généralement pas disponibles. Nous abordons cette question pour le raisonnement sur les radiographies thoraciques (CXR) en développant un cadre d'évaluation causale qui ne retient que les échantillons CXR-VQA pour lesquels la région annotée par l'expert est vérifiée, via une édition contrefactuelle, comme étant causalement responsable de la prédiction du modèle. En utilisant ce cadre sur 11 méthodes d'attribution, six LVLM open-source et deux modes de sortie (réponse directe et raisonnement pas à pas), nous constatons que les méthodes d'attribution existantes échouent souvent à identifier les preuves utilisées par les LVLM. Pour remédier à cet échec, nous proposons MedFocus, une méthode d'attribution basée sur les concepts qui localise des régions anatomiques cliniquement significatives via un transport optimal non équilibré et mesure leur effet causal sur les sorties du modèle à travers des interventions ciblées. MedFocus produit des attributions spatiales, au niveau des concepts et au niveau des tokens, et surpasse largement les méthodes précédentes, constituant un pas vers une attribution plus fiable pour les LVLM médicaux. Nos données et notre code sont disponibles à l'adresse https://github.com/gzxiong/medfocus/.

English

Large Vision Language Models (LVLMs) show promise in medical applications, but their inability to faithfully ground responses in visual evidence raises serious concerns about clinical trustworthiness. While visual attribution methods are widely used to explain LVLM predictions, whether these explanations actually reflect the visual evidence underlying the model's decision is largely unverified, since ground-truth annotations for internal model reasoning are typically unavailable. We address this question for chest X-ray (CXR) reasoning by developing a causal evaluation framework that retains only CXR-VQA samples for which the expert-annotated region is verified, via counterfactual editing, to be causally responsible for the model's prediction. Using this framework across 11 attribution methods, six open-source LVLMs, and two output modes (direct answer and step-by-step reasoning), we find that existing attribution methods often fail to identify the evidence used by LVLMs. To address this failure, we propose MedFocus, a concept-based attribution method that localizes clinically meaningful anatomical regions via unbalanced optimal transport and measures their causal effect on model outputs through targeted interventions. MedFocus produces spatial, concept-level, and token-level attributions and substantially outperforms prior methods, taking a step toward more trustworthy attribution for medical LVLMs. Our data and code are available at https://github.com/gzxiong/medfocus/.