Wenn der Hintergrund zählt: Angreifbarkeit medizinischer Bild-Sprach-Modelle durch transferierbare Attacken
When Background Matters: Breaking Medical Vision Language Models by Transferable Attack
April 19, 2026
Autoren: Akash Ghosh, Subhadip Baidya, Sriparna Saha, Xiuying Chen
cs.AI
Zusammenfassung
Vision-Language Models (VLMs) werden zunehmend in der klinischen Diagnostik eingesetzt, doch ihre Robustheit gegenüber adversariellen Angriffen ist weitgehend unerforscht, was ernste Risiken birgt. Bestehende medizinische Angriffe konzentrieren sich auf sekundäre Ziele wie Modell-Diebstahl oder adversarielles Fine-Tuning, während übertragbare Angriffe von natürlichen Bildern sichtbare Verzerrungen einführen, die von Klinikern leicht erkannt werden können. Um dieses Problem zu adressieren, schlagen wir MedFocusLeak vor, einen hochgradig übertragbaren Black-Box-Multimodal-Angriff, der falsche, jedoch klinisch plausible Diagnosen hervorruft und dabei die Perturbationen unmerkbar hält. Die Methode injiziert koordinierte Perturbationen in nicht-diagnostische Hintergrundregionen und setzt einen Ablenkungsmechanismus für die Aufmerksamkeit ein, um den Fokus des Modells von pathologischen Bereichen wegzulenken. Umfangreiche Auswertungen über sechs medizinische Bildgebungsmodalitäten hinweg zeigen, dass MedFocusLeak state-of-the-art Leistung erzielt und irreführende, jedoch realistische diagnostische Ausgaben über verschiedene VLMs hinweg erzeugt. Wir führen ferner einen einheitlichen Bewertungsrahmen mit neuartigen Metriken ein, die Angriffserfolg und Bildtreue gemeinsam erfassen und eine kritische Schwachstelle in den Reasoning-Fähigkeiten moderner klinischer VLMs aufdecken.
English
Vision-Language Models (VLMs) are increasingly used in clinical diagnostics, yet their robustness to adversarial attacks remains largely unexplored, posing serious risks. Existing medical attacks focus on secondary objectives such as model stealing or adversarial fine-tuning, while transferable attacks from natural images introduce visible distortions that clinicians can easily detect. To address this, we propose MedFocusLeak, a highly transferable black-box multimodal attack that induces incorrect yet clinically plausible diagnoses while keeping perturbations imperceptible. The method injects coordinated perturbations into non-diagnostic background regions and employs an attention distraction mechanism to shift the model's focus away from pathological areas. Extensive evaluations across six medical imaging modalities show that MedFocusLeak achieves state-of-the-art performance, generating misleading yet realistic diagnostic outputs across diverse VLMs. We further introduce a unified evaluation framework with novel metrics that jointly capture attack success and image fidelity, revealing a critical weakness in the reasoning capabilities of modern clinical VLMs.