ChatPaper.aiChatPaper

Limpieza de puertas traseras sin orientación externa en el ajuste fino de MLLM

Backdoor Cleaning without External Guidance in MLLM Fine-tuning

May 22, 2025
Autores: Xuankun Rong, Wenke Huang, Jian Liang, Jinhe Bi, Xun Xiao, Yiming Li, Bo Du, Mang Ye
cs.AI

Resumen

Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) se están implementando cada vez más en entornos de ajuste fino como servicio (FTaaS, por sus siglas en inglés), donde los conjuntos de datos enviados por los usuarios adaptan modelos de propósito general a tareas específicas. Sin embargo, esta flexibilidad introduce graves riesgos de seguridad, ya que el ajuste fino malicioso puede implantar puertas traseras en los MLLMs con un esfuerzo mínimo. En este artículo, observamos que los activadores de puertas traseras alteran sistemáticamente el procesamiento multimodal al causar una concentración anormal de la atención en regiones no semánticas—un fenómeno que denominamos colapso de atención. Basándonos en esta observación, proponemos Believe Your Eyes (BYE), un marco de filtrado de datos que aprovecha los patrones de entropía de atención como señales auto-supervisadas para identificar y filtrar muestras con puertas traseras. BYE opera mediante un proceso de tres etapas: (1) extracción de mapas de atención utilizando el modelo ajustado, (2) cálculo de puntuaciones de entropía y perfilado de capas sensibles mediante separación bimodal, y (3) realización de agrupamiento no supervisado para eliminar muestras sospechosas. A diferencia de defensas previas, BYE no requiere supervisión limpia, etiquetas auxiliares ni modificaciones del modelo. Experimentos exhaustivos en diversos conjuntos de datos, modelos y tipos de activadores validan la efectividad de BYE: logra tasas de éxito de ataque cercanas a cero mientras mantiene el rendimiento en tareas limpias, ofreciendo una solución robusta y generalizable contra amenazas de puertas traseras en MLLMs.
English
Multimodal Large Language Models (MLLMs) are increasingly deployed in fine-tuning-as-a-service (FTaaS) settings, where user-submitted datasets adapt general-purpose models to downstream tasks. This flexibility, however, introduces serious security risks, as malicious fine-tuning can implant backdoors into MLLMs with minimal effort. In this paper, we observe that backdoor triggers systematically disrupt cross-modal processing by causing abnormal attention concentration on non-semantic regions--a phenomenon we term attention collapse. Based on this insight, we propose Believe Your Eyes (BYE), a data filtering framework that leverages attention entropy patterns as self-supervised signals to identify and filter backdoor samples. BYE operates via a three-stage pipeline: (1) extracting attention maps using the fine-tuned model, (2) computing entropy scores and profiling sensitive layers via bimodal separation, and (3) performing unsupervised clustering to remove suspicious samples. Unlike prior defenses, BYE equires no clean supervision, auxiliary labels, or model modifications. Extensive experiments across various datasets, models, and diverse trigger types validate BYE's effectiveness: it achieves near-zero attack success rates while maintaining clean-task performance, offering a robust and generalizable solution against backdoor threats in MLLMs.

Summary

AI-Generated Summary

PDF142May 23, 2025