Wanneer de Achtergrond van Belang Is: Het Kraken van Medische Visie-Taalmodellen met Overdraagbare Aanvallen
When Background Matters: Breaking Medical Vision Language Models by Transferable Attack
April 19, 2026
Auteurs: Akash Ghosh, Subhadip Baidya, Sriparna Saha, Xiuying Chen
cs.AI
Samenvatting
Vision-Language Models (VLMs) worden steeds vaker ingezet bij klinische diagnostiek, maar hun robuustheid tegen adversarial attacks blijft grotendeels ononderzocht, wat ernstige risico's met zich meebrengt. Bestaande medische aanvallen richten zich op secundaire doelstellingen zoals modeldiefstal of adversarial fine-tuning, terwijl overdraagbare aanvallen vanuit natuurlijke afbeeldingen zichtbare vervormingen introduceren die clinici eenvoudig kunnen detecteren. Om dit aan te pakken, stellen wij MedFocusLeak voor, een hoogst overdraagbare black-box multimodale aanval die incorrecte maar klinisch plausibele diagnoses veroorzaakt, terwijl de perturbaties onmerkbaar blijven. De methode injecteert gecoördineerde perturbaties in niet-diagnostische achtergrondgebieden en gebruikt een aandacht-afleidingsmechanisme om de focus van het model weg te leiden van pathologische gebieden. Uitgebreide evaluaties over zes medische beeldvormingsmodaliteiten tonen aan dat MedFocusLeak state-of-the-art prestaties bereikt en misleidende maar realistische diagnostische uitkomsten genereert voor diverse VLMs. Wij introduceren verder een uniform evaluatiekader met nieuwe metrieken die zowel de aanvalssucces als de beeldgetrouwheid gezamenlijk vastleggen, wat een kritieke zwakte in de redeneervaardigheden van moderne klinische VLMs aan het licht brengt.
English
Vision-Language Models (VLMs) are increasingly used in clinical diagnostics, yet their robustness to adversarial attacks remains largely unexplored, posing serious risks. Existing medical attacks focus on secondary objectives such as model stealing or adversarial fine-tuning, while transferable attacks from natural images introduce visible distortions that clinicians can easily detect. To address this, we propose MedFocusLeak, a highly transferable black-box multimodal attack that induces incorrect yet clinically plausible diagnoses while keeping perturbations imperceptible. The method injects coordinated perturbations into non-diagnostic background regions and employs an attention distraction mechanism to shift the model's focus away from pathological areas. Extensive evaluations across six medical imaging modalities show that MedFocusLeak achieves state-of-the-art performance, generating misleading yet realistic diagnostic outputs across diverse VLMs. We further introduce a unified evaluation framework with novel metrics that jointly capture attack success and image fidelity, revealing a critical weakness in the reasoning capabilities of modern clinical VLMs.