ChatPaper.aiChatPaper

MLLMファインチューニングにおける外部ガイダンスなしのバックドアクリーニング

Backdoor Cleaning without External Guidance in MLLM Fine-tuning

May 22, 2025
著者: Xuankun Rong, Wenke Huang, Jian Liang, Jinhe Bi, Xun Xiao, Yiming Li, Bo Du, Mang Ye
cs.AI

要旨

マルチモーダル大規模言語モデル(MLLMs)は、ファインチューニング・アズ・ア・サービス(FTaaS)の設定でますます展開されており、ユーザーが提出したデータセットによって汎用モデルが下流タスクに適応されます。しかし、この柔軟性は重大なセキュリティリスクを引き起こします。悪意のあるファインチューニングによって、最小限の労力でMLLMsにバックドアを埋め込むことが可能だからです。本論文では、バックドアトリガーがクロスモーダル処理を体系的に破壊し、非意味的領域への異常な注意集中を引き起こす現象(我々が「注意崩壊」と呼ぶ現象)を観察します。この洞察に基づき、我々は「Believe Your Eyes(BYE)」を提案します。BYEは、注意エントロピーパターンを自己教師信号として活用し、バックドアサンプルを識別・除去するデータフィルタリングフレームワークです。BYEは3段階のパイプラインで動作します:(1)ファインチューニングされたモデルを使用して注意マップを抽出、(2)エントロピースコアを計算し、バイモーダル分離を通じて敏感な層をプロファイリング、(3)教師なしクラスタリングを実行して疑わしいサンプルを除去。従来の防御手法とは異なり、BYEはクリーンな監督、補助ラベル、またはモデルの変更を必要としません。様々なデータセット、モデル、多様なトリガータイプにわたる広範な実験により、BYEの有効性が検証されています:攻撃成功率をほぼゼロに抑えつつ、クリーンタスクの性能を維持し、MLLMsにおけるバックドア脅威に対する堅牢で汎用的なソリューションを提供します。
English
Multimodal Large Language Models (MLLMs) are increasingly deployed in fine-tuning-as-a-service (FTaaS) settings, where user-submitted datasets adapt general-purpose models to downstream tasks. This flexibility, however, introduces serious security risks, as malicious fine-tuning can implant backdoors into MLLMs with minimal effort. In this paper, we observe that backdoor triggers systematically disrupt cross-modal processing by causing abnormal attention concentration on non-semantic regions--a phenomenon we term attention collapse. Based on this insight, we propose Believe Your Eyes (BYE), a data filtering framework that leverages attention entropy patterns as self-supervised signals to identify and filter backdoor samples. BYE operates via a three-stage pipeline: (1) extracting attention maps using the fine-tuned model, (2) computing entropy scores and profiling sensitive layers via bimodal separation, and (3) performing unsupervised clustering to remove suspicious samples. Unlike prior defenses, BYE equires no clean supervision, auxiliary labels, or model modifications. Extensive experiments across various datasets, models, and diverse trigger types validate BYE's effectiveness: it achieves near-zero attack success rates while maintaining clean-task performance, offering a robust and generalizable solution against backdoor threats in MLLMs.
PDF162May 23, 2025