ChatPaper.aiChatPaper

Backdoor-Bereinigung ohne externe Anleitung bei der Feinabstimmung von MLLMs

Backdoor Cleaning without External Guidance in MLLM Fine-tuning

May 22, 2025
Autoren: Xuankun Rong, Wenke Huang, Jian Liang, Jinhe Bi, Xun Xiao, Yiming Li, Bo Du, Mang Ye
cs.AI

Zusammenfassung

Multimodale Large Language Models (MLLMs) werden zunehmend in Fine-Tuning-as-a-Service (FTaaS)-Umgebungen eingesetzt, bei denen benutzerspezifische Datensätze allgemeine Modelle für nachgelagerte Aufgaben anpassen. Diese Flexibilität birgt jedoch ernsthafte Sicherheitsrisiken, da bösartiges Fine-Tuning mit minimalem Aufwand Backdoors in MLLMs einpflanzen kann. In diesem Artikel beobachten wir, dass Backdoor-Trigger die cross-modale Verarbeitung systematisch stören, indem sie eine abnormale Aufmerksamkeitskonzentration auf nicht-semantische Regionen verursachen – ein Phänomen, das wir als Attention Collapse bezeichnen. Basierend auf dieser Erkenntnis schlagen wir Believe Your Eyes (BYE) vor, ein Datenfilterungsframework, das Aufmerksamkeitsentropiemuster als selbstüberwachte Signale nutzt, um Backdoor-Beispiele zu identifizieren und zu filtern. BYE arbeitet in einem dreistufigen Prozess: (1) Extraktion von Aufmerksamkeitskarten mithilfe des feinabgestimmten Modells, (2) Berechnung von Entropiewerten und Profilierung sensibler Schichten durch bimodale Trennung und (3) Durchführung von unüberwachtem Clustering, um verdächtige Proben zu entfernen. Im Gegensatz zu früheren Verteidigungsansätzen benötigt BYE keine saubere Überwachung, zusätzliche Labels oder Modifikationen des Modells. Umfangreiche Experimente über verschiedene Datensätze, Modelle und diverse Triggertypen bestätigen die Wirksamkeit von BYE: Es erreicht nahezu null Angriffserfolgsraten bei gleichbleibender Leistung in sauberen Aufgaben und bietet somit eine robuste und generalisierbare Lösung gegen Backdoor-Bedrohungen in MLLMs.
English
Multimodal Large Language Models (MLLMs) are increasingly deployed in fine-tuning-as-a-service (FTaaS) settings, where user-submitted datasets adapt general-purpose models to downstream tasks. This flexibility, however, introduces serious security risks, as malicious fine-tuning can implant backdoors into MLLMs with minimal effort. In this paper, we observe that backdoor triggers systematically disrupt cross-modal processing by causing abnormal attention concentration on non-semantic regions--a phenomenon we term attention collapse. Based on this insight, we propose Believe Your Eyes (BYE), a data filtering framework that leverages attention entropy patterns as self-supervised signals to identify and filter backdoor samples. BYE operates via a three-stage pipeline: (1) extracting attention maps using the fine-tuned model, (2) computing entropy scores and profiling sensitive layers via bimodal separation, and (3) performing unsupervised clustering to remove suspicious samples. Unlike prior defenses, BYE equires no clean supervision, auxiliary labels, or model modifications. Extensive experiments across various datasets, models, and diverse trigger types validate BYE's effectiveness: it achieves near-zero attack success rates while maintaining clean-task performance, offering a robust and generalizable solution against backdoor threats in MLLMs.

Summary

AI-Generated Summary

PDF142May 23, 2025