OBS-Diff: Präziser Beschnitt von Diffusionsmodellen in einem Schritt
OBS-Diff: Accurate Pruning For Diffusion Models in One-Shot
October 8, 2025
papers.authors: Junhan Zhu, Hesong Wang, Mingluo Su, Zefang Wang, Huan Wang
cs.AI
papers.abstract
Große Text-zu-Bild-Diffusionsmodelle, obwohl leistungsstark, leiden unter
prohibitiven Rechenkosten. Bestehende One-Shot-Netzwerkpruning-Methoden können
kaum direkt auf sie angewendet werden, da Diffusionsmodelle einen iterativen
Entrauschungsprozess durchlaufen. Um diese Lücke zu schließen, stellt dieses
Papier OBS-Diff vor, ein neuartiges One-Shot-Pruning-Framework, das eine
genaue und trainingsfreie Kompression von großen Text-zu-Bild-Diffusionsmodellen
ermöglicht. Konkret (i) belebt OBS-Diff das klassische Optimal Brain Surgeon
(OBS) wieder, passt es an die komplexen Architekturen moderner Diffusionsmodelle
an und unterstützt diverse Pruning-Granularitäten, einschließlich unstrukturierter,
N:M semi-strukturierter und strukturierter (MHA-Köpfe und FFN-Neuronen) Sparsity;
(ii) Um die Pruning-Kriterien mit der iterativen Dynamik des Diffusionsprozesses
in Einklang zu bringen, wird durch die Betrachtung des Problems aus einer
Fehlerakkumulationsperspektive eine neuartige, zeitstufenbewusste Hessian-
Konstruktion vorgeschlagen, die ein logarithmisch abnehmendes Gewichtungsschema
integriert und früheren Zeitstufen größere Bedeutung zuweist, um potenzielle
Fehlerakkumulation zu mildern; (iii) Darüber hinaus wird eine recheneffiziente,
gruppenweise sequenzielle Pruning-Strategie vorgeschlagen, um den teuren
Kalibrierungsprozess zu amortisieren. Umfangreiche Experimente zeigen, dass
OBS-Diff state-of-the-art One-Shot-Pruning für Diffusionsmodelle erreicht und
Rückschlussbeschleunigung mit minimaler Verschlechterung der visuellen Qualität
liefert.
English
Large-scale text-to-image diffusion models, while powerful, suffer from
prohibitive computational cost. Existing one-shot network pruning methods can
hardly be directly applied to them due to the iterative denoising nature of
diffusion models. To bridge the gap, this paper presents OBS-Diff, a novel
one-shot pruning framework that enables accurate and training-free compression
of large-scale text-to-image diffusion models. Specifically, (i) OBS-Diff
revitalizes the classic Optimal Brain Surgeon (OBS), adapting it to the complex
architectures of modern diffusion models and supporting diverse pruning
granularity, including unstructured, N:M semi-structured, and structured (MHA
heads and FFN neurons) sparsity; (ii) To align the pruning criteria with the
iterative dynamics of the diffusion process, by examining the problem from an
error-accumulation perspective, we propose a novel timestep-aware Hessian
construction that incorporates a logarithmic-decrease weighting scheme,
assigning greater importance to earlier timesteps to mitigate potential error
accumulation; (iii) Furthermore, a computationally efficient group-wise
sequential pruning strategy is proposed to amortize the expensive calibration
process. Extensive experiments show that OBS-Diff achieves state-of-the-art
one-shot pruning for diffusion models, delivering inference acceleration with
minimal degradation in visual quality.