Cuando el contexto importa: Vulnerando modelos de visión y lenguaje médicos mediante ataques transferibles
When Background Matters: Breaking Medical Vision Language Models by Transferable Attack
April 19, 2026
Autores: Akash Ghosh, Subhadip Baidya, Sriparna Saha, Xiuying Chen
cs.AI
Resumen
Los Modelos de Visión-Lenguaje (VLM) se utilizan cada vez más en diagnósticos clínicos, aunque su robustez frente a ataques adversarios sigue sin explorarse en gran medida, lo que plantea riesgos graves. Los ataques médicos existentes se centran en objetivos secundarios, como el robo de modelos o el ajuste fino adversario, mientras que los ataques transferibles desde imágenes naturales introducen distorsiones visibles que los clínicos pueden detectar fácilmente. Para abordar este problema, proponemos MedFocusLeak, un ataque multimodal de caja negra altamente transferible que induce diagnósticos incorrectos pero clínicamente plausibles, manteniendo las perturbaciones imperceptibles. El método inyecta perturbaciones coordinadas en regiones de fondo no diagnósticas y emplea un mecanismo de distracción de la atención para desviar el enfoque del modelo de las áreas patológicas. Evaluaciones exhaustivas en seis modalidades de imágenes médicas demuestran que MedFocusLeak logra un rendimiento de vanguardia, generando resultados diagnósticos engañosos pero realistas en diversos VLM. Además, introducimos un marco de evaluación unificado con nuevas métricas que capturan conjuntamente el éxito del ataque y la fidelidad de la imagen, revelando una vulnerabilidad crítica en las capacidades de razonamiento de los VLM clínicos modernos.
English
Vision-Language Models (VLMs) are increasingly used in clinical diagnostics, yet their robustness to adversarial attacks remains largely unexplored, posing serious risks. Existing medical attacks focus on secondary objectives such as model stealing or adversarial fine-tuning, while transferable attacks from natural images introduce visible distortions that clinicians can easily detect. To address this, we propose MedFocusLeak, a highly transferable black-box multimodal attack that induces incorrect yet clinically plausible diagnoses while keeping perturbations imperceptible. The method injects coordinated perturbations into non-diagnostic background regions and employs an attention distraction mechanism to shift the model's focus away from pathological areas. Extensive evaluations across six medical imaging modalities show that MedFocusLeak achieves state-of-the-art performance, generating misleading yet realistic diagnostic outputs across diverse VLMs. We further introduce a unified evaluation framework with novel metrics that jointly capture attack success and image fidelity, revealing a critical weakness in the reasoning capabilities of modern clinical VLMs.