MANI-Pure: Magnitudenadaptive Rauschinjektion zur adversarischen Reinigung
MANI-Pure: Magnitude-Adaptive Noise Injection for Adversarial Purification
September 29, 2025
papers.authors: Xiaoyi Huang, Junwei Wu, Kejia Zhang, Carl Yang, Zhiming Luo
cs.AI
papers.abstract
Die Adversarial-Purification mit Diffusionsmodellen hat sich als vielversprechende Verteidigungsstrategie erwiesen, doch bestehende Methoden beruhen typischerweise auf gleichmäßiger Rauscheinspritzung, die alle Frequenzen ungezielt stört, semantische Strukturen beschädigt und die Robustheit untergräbt. Unsere empirische Studie zeigt, dass Adversarial-Perturbationen nicht gleichmäßig verteilt sind: Sie konzentrieren sich überwiegend auf hochfrequente Bereiche, mit heterogenen Intensitätsmustern, die sich über Frequenzen und Angriffstypen hinweg unterscheiden. Motiviert durch diese Beobachtung führen wir MANI-Pure ein, ein magnitudenadaptives Purifikationsframework, das das Magnitudenspektrum der Eingaben nutzt, um den Reinigungsprozess zu steuern. Anstatt homogenes Rauschen einzuspritzen, wendet MANI-Pure adaptiv heterogenes, frequenzspezifisches Rauschen an, wodurch Adversarial-Perturbationen in empfindlichen hochfrequenten, niedrigen Magnitudenbändern effektiv unterdrückt werden, während semantisch kritische niederfrequente Inhalte erhalten bleiben. Umfangreiche Experimente auf CIFAR-10 und ImageNet-1K bestätigen die Wirksamkeit von MANI-Pure. Es reduziert die Lücke in der Clean Accuracy auf innerhalb von 0,59 des ursprünglichen Klassifikators, steigert die Robust Accuracy um 2,15 und erreicht die Top-1 Robust Accuracy auf der RobustBench-Rangliste, womit es die bisherige State-of-the-Art-Methode übertrifft.
English
Adversarial purification with diffusion models has emerged as a promising
defense strategy, but existing methods typically rely on uniform noise
injection, which indiscriminately perturbs all frequencies, corrupting semantic
structures and undermining robustness. Our empirical study reveals that
adversarial perturbations are not uniformly distributed: they are predominantly
concentrated in high-frequency regions, with heterogeneous magnitude intensity
patterns that vary across frequencies and attack types. Motivated by this
observation, we introduce MANI-Pure, a magnitude-adaptive purification
framework that leverages the magnitude spectrum of inputs to guide the
purification process. Instead of injecting homogeneous noise, MANI-Pure
adaptively applies heterogeneous, frequency-targeted noise, effectively
suppressing adversarial perturbations in fragile high-frequency, low-magnitude
bands while preserving semantically critical low-frequency content. Extensive
experiments on CIFAR-10 and ImageNet-1K validate the effectiveness of
MANI-Pure. It narrows the clean accuracy gap to within 0.59 of the original
classifier, while boosting robust accuracy by 2.15, and achieves the top-1
robust accuracy on the RobustBench leaderboard, surpassing the previous
state-of-the-art method.