MLLM 미세 조정에서 외부 지침 없이 백도어 정리하기
Backdoor Cleaning without External Guidance in MLLM Fine-tuning
May 22, 2025
저자: Xuankun Rong, Wenke Huang, Jian Liang, Jinhe Bi, Xun Xiao, Yiming Li, Bo Du, Mang Ye
cs.AI
초록
멀티모달 대형 언어 모델(MLLMs)은 최근 사용자가 제출한 데이터셋으로 다운스트림 작업에 맞게 일반 목적 모델을 적응시키는 파인튜닝-서비스(FTaaS) 환경에서 점점 더 많이 배포되고 있습니다. 그러나 이러한 유연성은 심각한 보안 위험을 초래할 수 있는데, 악의적인 파인튜닝으로 MLLMs에 백도어를 쉽게 심을 수 있기 때문입니다. 본 논문에서는 백도어 트리거가 비의미적 영역에 비정상적인 주의 집중을 유발하여 크로스모달 처리를 체계적으로 방해하는 현상, 즉 '주의 붕괴(attention collapse)'를 관찰했습니다. 이러한 통찰을 바탕으로, 우리는 주의 엔트로피 패턴을 자기 지도 신호로 활용하여 백도어 샘플을 식별하고 필터링하는 데이터 필터링 프레임워크인 Believe Your Eyes(BYE)를 제안합니다. BYE는 세 단계의 파이프라인으로 작동합니다: (1) 파인튜닝된 모델을 사용하여 주의 맵을 추출, (2) 엔트로피 점수를 계산하고 이중 모드 분리를 통해 민감한 레이어를 프로파일링, (3) 비지도 클러스터링을 수행하여 의심스러운 샘플을 제거. 기존 방어 기법과 달리, BYE는 깨끗한 감독 데이터, 보조 레이블, 또는 모델 수정이 필요하지 않습니다. 다양한 데이터셋, 모델, 그리고 다양한 트리거 유형에 걸친 광범위한 실험을 통해 BYE의 효과성을 검증했습니다: BYE는 공격 성공률을 거의 0%로 낮추면서도 깨끗한 작업 성능을 유지하여 MLLMs의 백도어 위협에 대한 강력하고 일반화 가능한 솔루션을 제공합니다.
English
Multimodal Large Language Models (MLLMs) are increasingly deployed in
fine-tuning-as-a-service (FTaaS) settings, where user-submitted datasets adapt
general-purpose models to downstream tasks. This flexibility, however,
introduces serious security risks, as malicious fine-tuning can implant
backdoors into MLLMs with minimal effort. In this paper, we observe that
backdoor triggers systematically disrupt cross-modal processing by causing
abnormal attention concentration on non-semantic regions--a phenomenon we term
attention collapse. Based on this insight, we propose Believe Your Eyes (BYE),
a data filtering framework that leverages attention entropy patterns as
self-supervised signals to identify and filter backdoor samples. BYE operates
via a three-stage pipeline: (1) extracting attention maps using the fine-tuned
model, (2) computing entropy scores and profiling sensitive layers via bimodal
separation, and (3) performing unsupervised clustering to remove suspicious
samples. Unlike prior defenses, BYE equires no clean supervision, auxiliary
labels, or model modifications. Extensive experiments across various datasets,
models, and diverse trigger types validate BYE's effectiveness: it achieves
near-zero attack success rates while maintaining clean-task performance,
offering a robust and generalizable solution against backdoor threats in MLLMs.Summary
AI-Generated Summary