ChatPaper.aiChatPaper

Limpeza de Backdoors sem Orientação Externa no Fine-tuning de MLLMs

Backdoor Cleaning without External Guidance in MLLM Fine-tuning

May 22, 2025
Autores: Xuankun Rong, Wenke Huang, Jian Liang, Jinhe Bi, Xun Xiao, Yiming Li, Bo Du, Mang Ye
cs.AI

Resumo

Modelos de Linguagem Multimodais de Grande Escala (MLLMs) estão sendo cada vez mais implantados em cenários de ajuste fino como serviço (FTaaS), onde conjuntos de dados enviados por usuários adaptam modelos de propósito geral para tarefas específicas. Essa flexibilidade, no entanto, introduz sérios riscos de segurança, pois o ajuste fino malicioso pode implantar backdoors em MLLMs com esforço mínimo. Neste artigo, observamos que os gatilhos de backdoor perturbam sistematicamente o processamento multimodal ao causar uma concentração anormal de atenção em regiões não semânticas—um fenômeno que denominamos colapso de atenção. Com base nessa percepção, propomos o Believe Your Eyes (BYE), um framework de filtragem de dados que utiliza padrões de entropia de atenção como sinais auto-supervisionados para identificar e filtrar amostras com backdoor. O BYE opera por meio de um pipeline de três etapas: (1) extração de mapas de atenção usando o modelo ajustado, (2) cálculo de escores de entropia e perfilamento de camadas sensíveis por meio de separação bimodal, e (3) realização de agrupamento não supervisionado para remover amostras suspeitas. Diferente de defesas anteriores, o BYE não requer supervisão limpa, rótulos auxiliares ou modificações no modelo. Experimentos extensivos em diversos conjuntos de dados, modelos e tipos de gatilhos validam a eficácia do BYE: ele alcança taxas de sucesso de ataque próximas a zero enquanto mantém o desempenho em tarefas limpas, oferecendo uma solução robusta e generalizável contra ameaças de backdoor em MLLMs.
English
Multimodal Large Language Models (MLLMs) are increasingly deployed in fine-tuning-as-a-service (FTaaS) settings, where user-submitted datasets adapt general-purpose models to downstream tasks. This flexibility, however, introduces serious security risks, as malicious fine-tuning can implant backdoors into MLLMs with minimal effort. In this paper, we observe that backdoor triggers systematically disrupt cross-modal processing by causing abnormal attention concentration on non-semantic regions--a phenomenon we term attention collapse. Based on this insight, we propose Believe Your Eyes (BYE), a data filtering framework that leverages attention entropy patterns as self-supervised signals to identify and filter backdoor samples. BYE operates via a three-stage pipeline: (1) extracting attention maps using the fine-tuned model, (2) computing entropy scores and profiling sensitive layers via bimodal separation, and (3) performing unsupervised clustering to remove suspicious samples. Unlike prior defenses, BYE equires no clean supervision, auxiliary labels, or model modifications. Extensive experiments across various datasets, models, and diverse trigger types validate BYE's effectiveness: it achieves near-zero attack success rates while maintaining clean-task performance, offering a robust and generalizable solution against backdoor threats in MLLMs.
PDF162May 23, 2025