OBS-Diff: Nauwkeurig Snoeien voor Diffusiemodellen in Één Stap
OBS-Diff: Accurate Pruning For Diffusion Models in One-Shot
October 8, 2025
Auteurs: Junhan Zhu, Hesong Wang, Mingluo Su, Zefang Wang, Huan Wang
cs.AI
Samenvatting
Grootschalige tekst-naar-beeld diffusiemodellen, hoewel krachtig, kampen met
verbijsterende rekenkosten. Bestaande one-shot netwerkpruningmethoden kunnen
moeilijk direct op hen worden toegepast vanwege de iteratieve denoising aard van
diffusiemodellen. Om deze kloof te overbruggen, presenteert dit artikel OBS-Diff, een nieuw
one-shot pruning framework dat nauwkeurige en trainingsvrije compressie van
grootschalige tekst-naar-beeld diffusiemodellen mogelijk maakt. Specifiek, (i) OBS-Diff
herleeft de klassieke Optimal Brain Surgeon (OBS), past deze aan op de complexe
architecturen van moderne diffusiemodellen en ondersteunt diverse pruning
granulariteit, waaronder ongestructureerde, N:M semi-gestructureerde en gestructureerde (MHA
koppen en FFN neuronen) sparsity; (ii) Om de pruningcriteria af te stemmen op de
iteratieve dynamiek van het diffusieproces, door het probleem vanuit een
foutaccumulatieperspectief te onderzoeken, stellen we een nieuw tijdstapbewuste Hessiaan
constructie voor die een logaritmisch-afnemend weegschema omvat,
waardoor groter belang wordt toegekend aan eerdere tijdstappen om potentiële foutaccumulatie
te mitigeren; (iii) Bovendien wordt een rekenkundig efficiënte groepgewijze
sequentiële pruningstrategie voorgesteld om het dure kalibratieproces te amortiseren. Uitgebreide experimenten tonen aan dat OBS-Diff state-of-the-art
one-shot pruning voor diffusiemodellen bereikt, wat inferentieversnelling biedt met
minimale degradatie in visuele kwaliteit.
English
Large-scale text-to-image diffusion models, while powerful, suffer from
prohibitive computational cost. Existing one-shot network pruning methods can
hardly be directly applied to them due to the iterative denoising nature of
diffusion models. To bridge the gap, this paper presents OBS-Diff, a novel
one-shot pruning framework that enables accurate and training-free compression
of large-scale text-to-image diffusion models. Specifically, (i) OBS-Diff
revitalizes the classic Optimal Brain Surgeon (OBS), adapting it to the complex
architectures of modern diffusion models and supporting diverse pruning
granularity, including unstructured, N:M semi-structured, and structured (MHA
heads and FFN neurons) sparsity; (ii) To align the pruning criteria with the
iterative dynamics of the diffusion process, by examining the problem from an
error-accumulation perspective, we propose a novel timestep-aware Hessian
construction that incorporates a logarithmic-decrease weighting scheme,
assigning greater importance to earlier timesteps to mitigate potential error
accumulation; (iii) Furthermore, a computationally efficient group-wise
sequential pruning strategy is proposed to amortize the expensive calibration
process. Extensive experiments show that OBS-Diff achieves state-of-the-art
one-shot pruning for diffusion models, delivering inference acceleration with
minimal degradation in visual quality.