Quando lo Sfondo Conta: Compromettere i Modelli Linguistici di Visione Medica con Attacchi Trasferibili

Abstract

I modelli visione-linguaggio (VLM) sono sempre più utilizzati nella diagnostica clinica, ma la loro robustezza agli attacchi avversari rimane in gran parte inesplorata, rappresentando un serio rischio. Gli attacchi medici esistenti si concentrano su obiettivi secondari come il furto del modello o il fine-tuning avversario, mentre gli attacchi trasferibili da immagini naturali introducono distorsioni visibili che i clinici possono facilmente rilevare. Per affrontare questo problema, proponiamo MedFocusLeak, un attacco multimodale black-box altamente trasferibile che induce diagnosi errate ma clinicamente plausibili mantenendo le perturbazioni impercettibili. Il metodo inietta perturbazioni coordinate nelle regioni di sfondo non diagnostiche e impiega un meccanismo di distrazione dell'attenzione per spostare il focus del modello lontano dalle aree patologiche. Valutazioni estese su sei modalità di imaging medico dimostrano che MedFocusLeak raggiunge prestazioni all'avanguardia, generando output diagnostici fuorvianti ma realistici su diversi VLM. Introduciamo inoltre un framework di valutazione unificato con nuove metriche che catturano congiuntamente il successo dell'attacco e la fedeltà dell'immagine, rivelando una critica debolezza nelle capacità di ragionamento dei moderni VLM clinici.

English

Vision-Language Models (VLMs) are increasingly used in clinical diagnostics, yet their robustness to adversarial attacks remains largely unexplored, posing serious risks. Existing medical attacks focus on secondary objectives such as model stealing or adversarial fine-tuning, while transferable attacks from natural images introduce visible distortions that clinicians can easily detect. To address this, we propose MedFocusLeak, a highly transferable black-box multimodal attack that induces incorrect yet clinically plausible diagnoses while keeping perturbations imperceptible. The method injects coordinated perturbations into non-diagnostic background regions and employs an attention distraction mechanism to shift the model's focus away from pathological areas. Extensive evaluations across six medical imaging modalities show that MedFocusLeak achieves state-of-the-art performance, generating misleading yet realistic diagnostic outputs across diverse VLMs. We further introduce a unified evaluation framework with novel metrics that jointly capture attack success and image fidelity, revealing a critical weakness in the reasoning capabilities of modern clinical VLMs.

Quando lo Sfondo Conta: Compromettere i Modelli Linguistici di Visione Medica con Attacchi Trasferibili

When Background Matters: Breaking Medical Vision Language Models by Transferable Attack

Abstract

Support