Очистка бэкдоров без внешнего руководства при тонкой настройке MLLM
Backdoor Cleaning without External Guidance in MLLM Fine-tuning
May 22, 2025
Авторы: Xuankun Rong, Wenke Huang, Jian Liang, Jinhe Bi, Xun Xiao, Yiming Li, Bo Du, Mang Ye
cs.AI
Аннотация
Мультимодальные большие языковые модели (MLLMs) всё чаще используются в контексте настройки как услуги (FTaaS), где пользовательские наборы данных адаптируют универсальные модели для решения конкретных задач. Однако такая гибкость создаёт серьёзные угрозы безопасности, поскольку злонамеренная настройка может с минимальными усилиями внедрить бэкдоры в MLLMs. В данной работе мы наблюдаем, что триггеры бэкдоров систематически нарушают кросс-модальную обработку, вызывая аномальную концентрацию внимания на не-семантических областях — явление, которое мы называем коллапсом внимания. На основе этого наблюдения мы предлагаем Believe Your Eyes (BYE), фреймворк фильтрации данных, который использует паттерны энтропии внимания в качестве самоконтролируемых сигналов для выявления и фильтрации образцов с бэкдорами. BYE работает через трёхэтапный процесс: (1) извлечение карт внимания с использованием настроенной модели, (2) вычисление показателей энтропии и профилирование чувствительных слоёв через бимодальное разделение, и (3) выполнение неконтролируемой кластеризации для удаления подозрительных образцов. В отличие от предыдущих методов защиты, BYE не требует чистого надзора, дополнительных меток или модификаций модели. Эксперименты на различных наборах данных, моделях и типах триггеров подтверждают эффективность BYE: он достигает почти нулевого уровня успешности атак, сохраняя при этом производительность на чистых задачах, предлагая надёжное и универсальное решение против угроз бэкдоров в MLLMs.
English
Multimodal Large Language Models (MLLMs) are increasingly deployed in
fine-tuning-as-a-service (FTaaS) settings, where user-submitted datasets adapt
general-purpose models to downstream tasks. This flexibility, however,
introduces serious security risks, as malicious fine-tuning can implant
backdoors into MLLMs with minimal effort. In this paper, we observe that
backdoor triggers systematically disrupt cross-modal processing by causing
abnormal attention concentration on non-semantic regions--a phenomenon we term
attention collapse. Based on this insight, we propose Believe Your Eyes (BYE),
a data filtering framework that leverages attention entropy patterns as
self-supervised signals to identify and filter backdoor samples. BYE operates
via a three-stage pipeline: (1) extracting attention maps using the fine-tuned
model, (2) computing entropy scores and profiling sensitive layers via bimodal
separation, and (3) performing unsupervised clustering to remove suspicious
samples. Unlike prior defenses, BYE equires no clean supervision, auxiliary
labels, or model modifications. Extensive experiments across various datasets,
models, and diverse trigger types validate BYE's effectiveness: it achieves
near-zero attack success rates while maintaining clean-task performance,
offering a robust and generalizable solution against backdoor threats in MLLMs.Summary
AI-Generated Summary