Когда фон имеет значение: взлом медицинских моделей обработки зрения и языка с помощью трансферных атак
When Background Matters: Breaking Medical Vision Language Models by Transferable Attack
April 19, 2026
Авторы: Akash Ghosh, Subhadip Baidya, Sriparna Saha, Xiuying Chen
cs.AI
Аннотация
Визуально-языковые модели (VLM) все чаще применяются в клинической диагностике, однако их устойчивость к атакам противника остается малоизученной, что создает серьезные риски. Существующие медицинские атаки ориентированы на второстепенные цели, такие как кража моделей или состязательная донастройка, тогда как переносимые атаки с натуральных изображений создают видимые искажения, которые клиницисты легко обнаруживают. Для решения этой проблемы мы предлагаем MedFocusLeak — высокопереносимую многомодальную атаку в черном ящике, которая вызывает ошибочные, но клинически правдоподобные диагнозы, сохраняя возмущения незаметными. Метод внедряет скоординированные возмущения в недиагностические фоновые области и использует механизм отвлечения внимания для смещения фокуса модели от патологических зон. Масштабные оценки по шести модальностям медицинской визуализации показывают, что MedFocusLeak демонстрирует передовую производительность, генерируя вводящие в заблуждение, но реалистичные диагностические выводы для различных VLM. Мы также представляем унифицированную систему оценки с новыми метриками, которые совместно измеряют успешность атаки и достоверность изображений, выявляя критическую уязвимость в способностях к рассуждению у современных клинических VLM.
English
Vision-Language Models (VLMs) are increasingly used in clinical diagnostics, yet their robustness to adversarial attacks remains largely unexplored, posing serious risks. Existing medical attacks focus on secondary objectives such as model stealing or adversarial fine-tuning, while transferable attacks from natural images introduce visible distortions that clinicians can easily detect. To address this, we propose MedFocusLeak, a highly transferable black-box multimodal attack that induces incorrect yet clinically plausible diagnoses while keeping perturbations imperceptible. The method injects coordinated perturbations into non-diagnostic background regions and employs an attention distraction mechanism to shift the model's focus away from pathological areas. Extensive evaluations across six medical imaging modalities show that MedFocusLeak achieves state-of-the-art performance, generating misleading yet realistic diagnostic outputs across diverse VLMs. We further introduce a unified evaluation framework with novel metrics that jointly capture attack success and image fidelity, revealing a critical weakness in the reasoning capabilities of modern clinical VLMs.