배경이 중요할 때: 전이 가능한 공격으로 의료 비전 언어 모델 깨뜨리기
When Background Matters: Breaking Medical Vision Language Models by Transferable Attack
April 19, 2026
저자: Akash Ghosh, Subhadip Baidya, Sriparna Saha, Xiuying Chen
cs.AI
초록
비전-언어 모델(VLM)은 임상 진단에 점점 더 많이 활용되고 있지만, 적대적 공격에 대한 강건성은 거의 연구되지 않아 심각한 위험을 초래하고 있습니다. 기존 의료 분야 공격은 모델 추출이나 적대적 미세 조정과 같은 부수적 목표에 집중하는 반면, 자연 이미지 기반 전이 공격은 임상의가 쉽게 감지할 수 있는 시각적 왜곡을 유발합니다. 이를 해결하기 위해 우리는 임상적으로 그럴듯한 오진을 유도하면서도 섭동을 지각하기 어렵게 유지하는 고도의 전이 가능 블랙박스 다중모드 공격 기법인 MedFocusLeak을 제안합니다. 이 방법은 비진단적 배경 영역에 조정된 섭동을 주입하고 주의 분산 메커니즘을 활용하여 모델의 초점을 병리 영역에서 벗어나게 합니다. 6가지 의료 영상 모드에 대한 포괄적 평가 결과, MedFocusLeak은 다양한 VLM에서 오도하지만 현실적인 진단 결과를 생성하며 최첨단 성능을 달성함을 확인했습니다. 또한 우리는 공격 성공률과 영상 충실도를 함께 평가하는 새로운 지표를 포함한 통합 평가 프레임워크를 도입하여 현대 임상 VLM의 추론 능력에 내재된 치명적 약점을 밝혔습니다.
English
Vision-Language Models (VLMs) are increasingly used in clinical diagnostics, yet their robustness to adversarial attacks remains largely unexplored, posing serious risks. Existing medical attacks focus on secondary objectives such as model stealing or adversarial fine-tuning, while transferable attacks from natural images introduce visible distortions that clinicians can easily detect. To address this, we propose MedFocusLeak, a highly transferable black-box multimodal attack that induces incorrect yet clinically plausible diagnoses while keeping perturbations imperceptible. The method injects coordinated perturbations into non-diagnostic background regions and employs an attention distraction mechanism to shift the model's focus away from pathological areas. Extensive evaluations across six medical imaging modalities show that MedFocusLeak achieves state-of-the-art performance, generating misleading yet realistic diagnostic outputs across diverse VLMs. We further introduce a unified evaluation framework with novel metrics that jointly capture attack success and image fidelity, revealing a critical weakness in the reasoning capabilities of modern clinical VLMs.