Quando o Plano de Fundo Importa: Quebrando Modelos de Linguagem Visual Médica com Ataques Transferíveis

Resumo

Os Modelos de Visão-Linguagem (VLMs) são cada vez mais utilizados em diagnósticos clínicos, mas a sua robustez face a ataques adversários permanece largamente inexplorada, representando um risco sério. Os ataques médicos existentes concentram-se em objetivos secundários, como roubo de modelos ou *fine-tuning* adversário, enquanto os ataques transferíveis a partir de imagens naturais introduzem distorções visíveis que os clínicos podem detetar facilmente. Para resolver esta lacuna, propomos o MedFocusLeak, um ataque multimodal em caixa-negra altamente transferível que induz diagnósticos incorretos, mas clinicamente plausíveis, mantendo as perturbações impercetíveis. O método injeta perturbações coordenadas em regiões de fundo não diagnósticas e emprega um mecanismo de distração de atenção para desviar o foco do modelo das áreas patológicas. Avaliações extensas em seis modalidades de imagem médica mostram que o MedFocusLeak alcança um desempenho de ponta, gerando resultados diagnósticos enganosos, mas realistas, em diversos VLMs. Introduzimos ainda uma estrutura de avaliação unificada com novas métricas que capturam conjuntamente o sucesso do ataque e a fidelidade da imagem, revelando uma vulnerabilidade crítica nas capacidades de raciocínio dos VLMs clínicos modernos.

English

Vision-Language Models (VLMs) are increasingly used in clinical diagnostics, yet their robustness to adversarial attacks remains largely unexplored, posing serious risks. Existing medical attacks focus on secondary objectives such as model stealing or adversarial fine-tuning, while transferable attacks from natural images introduce visible distortions that clinicians can easily detect. To address this, we propose MedFocusLeak, a highly transferable black-box multimodal attack that induces incorrect yet clinically plausible diagnoses while keeping perturbations imperceptible. The method injects coordinated perturbations into non-diagnostic background regions and employs an attention distraction mechanism to shift the model's focus away from pathological areas. Extensive evaluations across six medical imaging modalities show that MedFocusLeak achieves state-of-the-art performance, generating misleading yet realistic diagnostic outputs across diverse VLMs. We further introduce a unified evaluation framework with novel metrics that jointly capture attack success and image fidelity, revealing a critical weakness in the reasoning capabilities of modern clinical VLMs.

Quando o Plano de Fundo Importa: Quebrando Modelos de Linguagem Visual Médica com Ataques Transferíveis

When Background Matters: Breaking Medical Vision Language Models by Transferable Attack

Resumo

Support