Pulizia delle Backdoor senza Guida Esterna nel Fine-Tuning dei MLLM
Backdoor Cleaning without External Guidance in MLLM Fine-tuning
May 22, 2025
Autori: Xuankun Rong, Wenke Huang, Jian Liang, Jinhe Bi, Xun Xiao, Yiming Li, Bo Du, Mang Ye
cs.AI
Abstract
I Modelli Linguistici Multimodali di Grandi Dimensioni (MLLMs) vengono sempre più utilizzati in contesti di fine-tuning-as-a-service (FTaaS), dove dataset forniti dagli utenti adattano modelli generici a compiti specifici. Questa flessibilità, tuttavia, introduce seri rischi per la sicurezza, poiché un fine-tuning malevolo può impiantare backdoor negli MLLM con uno sforzo minimo. In questo articolo, osserviamo che i trigger dei backdoor interrompono sistematicamente l'elaborazione cross-modale causando una concentrazione anomala dell'attenzione su regioni non semantiche—un fenomeno che definiamo collasso dell'attenzione. Basandoci su questa intuizione, proponiamo Believe Your Eyes (BYE), un framework di filtraggio dei dati che sfrutta i modelli di entropia dell'attenzione come segnali auto-supervisionati per identificare e filtrare campioni contenenti backdoor. BYE opera attraverso una pipeline in tre fasi: (1) estrazione delle mappe di attenzione utilizzando il modello fine-tuned, (2) calcolo dei punteggi di entropia e profilazione degli strati sensibili tramite separazione bimodale, e (3) esecuzione di clustering non supervisionato per rimuovere campioni sospetti. A differenza delle difese precedenti, BYE non richiede supervisione pulita, etichette ausiliarie o modifiche al modello. Esperimenti estesi su vari dataset, modelli e diversi tipi di trigger convalidano l'efficacia di BYE: raggiunge tassi di successo dell'attacco quasi nulli mantenendo le prestazioni sui compiti puliti, offrendo una soluzione robusta e generalizzabile contro le minacce di backdoor negli MLLM.
English
Multimodal Large Language Models (MLLMs) are increasingly deployed in
fine-tuning-as-a-service (FTaaS) settings, where user-submitted datasets adapt
general-purpose models to downstream tasks. This flexibility, however,
introduces serious security risks, as malicious fine-tuning can implant
backdoors into MLLMs with minimal effort. In this paper, we observe that
backdoor triggers systematically disrupt cross-modal processing by causing
abnormal attention concentration on non-semantic regions--a phenomenon we term
attention collapse. Based on this insight, we propose Believe Your Eyes (BYE),
a data filtering framework that leverages attention entropy patterns as
self-supervised signals to identify and filter backdoor samples. BYE operates
via a three-stage pipeline: (1) extracting attention maps using the fine-tuned
model, (2) computing entropy scores and profiling sensitive layers via bimodal
separation, and (3) performing unsupervised clustering to remove suspicious
samples. Unlike prior defenses, BYE equires no clean supervision, auxiliary
labels, or model modifications. Extensive experiments across various datasets,
models, and diverse trigger types validate BYE's effectiveness: it achieves
near-zero attack success rates while maintaining clean-task performance,
offering a robust and generalizable solution against backdoor threats in MLLMs.