ChatPaper.aiChatPaper

Backdoorreiniging zonder externe begeleiding in MLLM-finetuning

Backdoor Cleaning without External Guidance in MLLM Fine-tuning

May 22, 2025
Auteurs: Xuankun Rong, Wenke Huang, Jian Liang, Jinhe Bi, Xun Xiao, Yiming Li, Bo Du, Mang Ye
cs.AI

Samenvatting

Multimodal Large Language Models (MLLMs) worden steeds vaker ingezet in fine-tuning-as-a-service (FTaaS) omgevingen, waarbij door gebruikers aangeleverde datasets algemene modellen aanpassen voor downstream taken. Deze flexibiliteit brengt echter ernstige beveiligingsrisico's met zich mee, aangezien kwaadaardige fine-tuning met minimale inspanning backdoors in MLLMs kan implanteren. In dit artikel observeren we dat backdoor-triggers systematisch de cross-modale verwerking verstoren door abnormale aandacht te concentreren op niet-semantische regio's—een fenomeen dat we attention collapse noemen. Gebaseerd op dit inzicht stellen we Believe Your Eyes (BYE) voor, een datafilteringsframework dat aandacht-entropiepatronen gebruikt als zelfgesuperviseerde signalen om backdoor-voorbeelden te identificeren en te filteren. BYE werkt via een drietrapspijplijn: (1) het extraheren van aandachtkaarten met behulp van het fijn afgestemde model, (2) het berekenen van entropiescores en het profileren van gevoelige lagen via bimodale scheiding, en (3) het uitvoeren van ongeclusterde clustering om verdachte voorbeelden te verwijderen. In tegenstelling tot eerdere verdedigingen vereist BYE geen schone supervisie, aanvullende labels of modelaanpassingen. Uitgebreide experimenten met verschillende datasets, modellen en diverse triggertypes valideren de effectiviteit van BYE: het behaalt bijna-nul aanvalssuccespercentages terwijl de prestaties van schone taken behouden blijven, en biedt zo een robuuste en generaliseerbare oplossing tegen backdoor-bedreigingen in MLLMs.
English
Multimodal Large Language Models (MLLMs) are increasingly deployed in fine-tuning-as-a-service (FTaaS) settings, where user-submitted datasets adapt general-purpose models to downstream tasks. This flexibility, however, introduces serious security risks, as malicious fine-tuning can implant backdoors into MLLMs with minimal effort. In this paper, we observe that backdoor triggers systematically disrupt cross-modal processing by causing abnormal attention concentration on non-semantic regions--a phenomenon we term attention collapse. Based on this insight, we propose Believe Your Eyes (BYE), a data filtering framework that leverages attention entropy patterns as self-supervised signals to identify and filter backdoor samples. BYE operates via a three-stage pipeline: (1) extracting attention maps using the fine-tuned model, (2) computing entropy scores and profiling sensitive layers via bimodal separation, and (3) performing unsupervised clustering to remove suspicious samples. Unlike prior defenses, BYE equires no clean supervision, auxiliary labels, or model modifications. Extensive experiments across various datasets, models, and diverse trigger types validate BYE's effectiveness: it achieves near-zero attack success rates while maintaining clean-task performance, offering a robust and generalizable solution against backdoor threats in MLLMs.
PDF162May 23, 2025