Nettoyage des portes dérobées sans guidance externe dans le fine-tuning des MLLM
Backdoor Cleaning without External Guidance in MLLM Fine-tuning
May 22, 2025
Auteurs: Xuankun Rong, Wenke Huang, Jian Liang, Jinhe Bi, Xun Xiao, Yiming Li, Bo Du, Mang Ye
cs.AI
Résumé
Les modèles de langage multimodaux de grande taille (MLLMs) sont de plus en plus déployés dans des contextes de fine-tuning-as-a-service (FTaaS), où des ensembles de données soumis par les utilisateurs adaptent des modèles généralistes à des tâches en aval. Cette flexibilité introduit cependant des risques de sécurité importants, car un fine-tuning malveillant peut implanter des portes dérobées dans les MLLMs avec un effort minimal. Dans cet article, nous observons que les déclencheurs de portes dérobées perturbent systématiquement le traitement intermodal en provoquant une concentration anormale de l'attention sur des régions non sémantiques—un phénomène que nous appelons effondrement de l'attention. Sur la base de cette observation, nous proposons Believe Your Eyes (BYE), un cadre de filtrage de données qui exploite les motifs d'entropie de l'attention comme signaux auto-supervisés pour identifier et filtrer les échantillons contenant des portes dérobées. BYE fonctionne via un pipeline en trois étapes : (1) extraction des cartes d'attention à l'aide du modèle fine-tuné, (2) calcul des scores d'entropie et profilage des couches sensibles via une séparation bimodale, et (3) regroupement non supervisé pour éliminer les échantillons suspects. Contrairement aux défenses précédentes, BYE ne nécessite aucune supervision propre, d'étiquettes auxiliaires ou de modifications du modèle. Des expériences approfondies sur divers ensembles de données, modèles et types de déclencheurs valident l'efficacité de BYE : il atteint des taux de réussite d'attaque proches de zéro tout en maintenant les performances sur les tâches propres, offrant ainsi une solution robuste et généralisable contre les menaces de portes dérobées dans les MLLMs.
English
Multimodal Large Language Models (MLLMs) are increasingly deployed in
fine-tuning-as-a-service (FTaaS) settings, where user-submitted datasets adapt
general-purpose models to downstream tasks. This flexibility, however,
introduces serious security risks, as malicious fine-tuning can implant
backdoors into MLLMs with minimal effort. In this paper, we observe that
backdoor triggers systematically disrupt cross-modal processing by causing
abnormal attention concentration on non-semantic regions--a phenomenon we term
attention collapse. Based on this insight, we propose Believe Your Eyes (BYE),
a data filtering framework that leverages attention entropy patterns as
self-supervised signals to identify and filter backdoor samples. BYE operates
via a three-stage pipeline: (1) extracting attention maps using the fine-tuned
model, (2) computing entropy scores and profiling sensitive layers via bimodal
separation, and (3) performing unsupervised clustering to remove suspicious
samples. Unlike prior defenses, BYE equires no clean supervision, auxiliary
labels, or model modifications. Extensive experiments across various datasets,
models, and diverse trigger types validate BYE's effectiveness: it achieves
near-zero attack success rates while maintaining clean-task performance,
offering a robust and generalizable solution against backdoor threats in MLLMs.Summary
AI-Generated Summary