Quand le Contexte Compte : Briser les Modèles de Vision Médicale par des Attaques Transférables

Résumé

Les modèles vision-langage (VLM) sont de plus en plus utilisés en diagnostic clinique, mais leur robustesse face aux attaques adverses reste largement inexplorée, ce qui présente des risques importants. Les attaques médicales existantes se concentrent sur des objectifs secondaires tels que le vol de modèles ou le réglage adverse, tandis que les attaques transférables depuis les images naturelles introduisent des distorsions visibles que les cliniciens peuvent facilement détecter. Pour résoudre ce problème, nous proposons MedFocusLeak, une attaque multimodale boîte noire hautement transférable qui induit des diagnostics incorrects mais cliniquement plausibles tout en gardant les perturbations imperceptibles. La méthode injecte des perturbations coordonnées dans les régions d'arrière-plan non diagnostiques et utilise un mécanisme de distraction de l'attention pour détourner le focus du modèle des zones pathologiques. Des évaluations approfondies sur six modalités d'imagerie médicale montrent que MedFocusLeak atteint des performances de pointe, générant des résultats diagnostiques trompeurs mais réalistes sur divers VLM. Nous introduisons également un cadre d'évaluation unifié avec de nouvelles métriques qui capturent conjointement le succès de l'attaque et la fidélité de l'image, révélant une vulnérabilité critique dans les capacités de raisonnement des VLM cliniques modernes.

English

Vision-Language Models (VLMs) are increasingly used in clinical diagnostics, yet their robustness to adversarial attacks remains largely unexplored, posing serious risks. Existing medical attacks focus on secondary objectives such as model stealing or adversarial fine-tuning, while transferable attacks from natural images introduce visible distortions that clinicians can easily detect. To address this, we propose MedFocusLeak, a highly transferable black-box multimodal attack that induces incorrect yet clinically plausible diagnoses while keeping perturbations imperceptible. The method injects coordinated perturbations into non-diagnostic background regions and employs an attention distraction mechanism to shift the model's focus away from pathological areas. Extensive evaluations across six medical imaging modalities show that MedFocusLeak achieves state-of-the-art performance, generating misleading yet realistic diagnostic outputs across diverse VLMs. We further introduce a unified evaluation framework with novel metrics that jointly capture attack success and image fidelity, revealing a critical weakness in the reasoning capabilities of modern clinical VLMs.

Quand le Contexte Compte : Briser les Modèles de Vision Médicale par des Attaques Transférables

When Background Matters: Breaking Medical Vision Language Models by Transferable Attack

Résumé

Support