MANI-Pure: Введение адаптивного по величине шума для очистки от атак
MANI-Pure: Magnitude-Adaptive Noise Injection for Adversarial Purification
September 29, 2025
Авторы: Xiaoyi Huang, Junwei Wu, Kejia Zhang, Carl Yang, Zhiming Luo
cs.AI
Аннотация
Очистка от атак с использованием диффузионных моделей стала перспективной стратегией защиты, однако существующие методы обычно полагаются на равномерное добавление шума, которое без разбора искажает все частоты, разрушая семантические структуры и снижая устойчивость. Наше эмпирическое исследование показывает, что адверсарные возмущения распределены неравномерно: они преимущественно сосредоточены в высокочастотных областях, с неоднородными паттернами интенсивности, которые варьируются в зависимости от частот и типов атак. Вдохновленные этим наблюдением, мы представляем MANI-Pure — магнитудно-адаптивную структуру очистки, которая использует спектр амплитуд входных данных для управления процессом очистки. Вместо добавления однородного шума MANI-Pure адаптивно применяет неоднородный, частотно-ориентированный шум, эффективно подавляя адверсарные возмущения в уязвимых высокочастотных, низкоамплитудных полосах, сохраняя при этом семантически важный низкочастотный контент. Многочисленные эксперименты на CIFAR-10 и ImageNet-1K подтверждают эффективность MANI-Pure. Метод сокращает разрыв в точности на чистых данных до 0.59 по сравнению с исходным классификатором, повышая устойчивую точность на 2.15, и достигает наивысшей устойчивой точности в рейтинге RobustBench, превосходя предыдущий метод, считавшийся передовым.
English
Adversarial purification with diffusion models has emerged as a promising
defense strategy, but existing methods typically rely on uniform noise
injection, which indiscriminately perturbs all frequencies, corrupting semantic
structures and undermining robustness. Our empirical study reveals that
adversarial perturbations are not uniformly distributed: they are predominantly
concentrated in high-frequency regions, with heterogeneous magnitude intensity
patterns that vary across frequencies and attack types. Motivated by this
observation, we introduce MANI-Pure, a magnitude-adaptive purification
framework that leverages the magnitude spectrum of inputs to guide the
purification process. Instead of injecting homogeneous noise, MANI-Pure
adaptively applies heterogeneous, frequency-targeted noise, effectively
suppressing adversarial perturbations in fragile high-frequency, low-magnitude
bands while preserving semantically critical low-frequency content. Extensive
experiments on CIFAR-10 and ImageNet-1K validate the effectiveness of
MANI-Pure. It narrows the clean accuracy gap to within 0.59 of the original
classifier, while boosting robust accuracy by 2.15, and achieves the top-1
robust accuracy on the RobustBench leaderboard, surpassing the previous
state-of-the-art method.