ChatPaper.aiChatPaper

OBS-Diff : Élagage précis pour les modèles de diffusion en une seule étape

OBS-Diff: Accurate Pruning For Diffusion Models in One-Shot

October 8, 2025
papers.authors: Junhan Zhu, Hesong Wang, Mingluo Su, Zefang Wang, Huan Wang
cs.AI

papers.abstract

Les modèles de diffusion à grande échelle pour la génération d'images à partir de texte, bien que puissants, souffrent de coûts de calcul prohibitifs. Les méthodes existantes d'élagage de réseau en une seule étape ne peuvent guère leur être directement appliquées en raison de la nature itérative du processus de débruitage des modèles de diffusion. Pour combler cette lacune, cet article présente OBS-Diff, un nouveau cadre d'élagage en une seule étape qui permet une compression précise et sans entraînement des modèles de diffusion à grande échelle pour la génération d'images à partir de texte. Plus précisément, (i) OBS-Diff revitalise l'Optimal Brain Surgeon (OBS) classique, en l'adaptant aux architectures complexes des modèles de diffusion modernes et en prenant en charge diverses granularités d'élagage, y compris la sparsité non structurée, semi-structurée N:M et structurée (têtes MHA et neurones FFN) ; (ii) Pour aligner les critères d'élagage avec la dynamique itérative du processus de diffusion, en examinant le problème sous l'angle de l'accumulation d'erreurs, nous proposons une nouvelle construction de Hessian prenant en compte les étapes temporelles, intégrant un schéma de pondération à décroissance logarithmique, attribuant une importance accrue aux étapes initiales afin d'atténuer l'accumulation potentielle d'erreurs ; (iii) En outre, une stratégie d'élagage séquentiel par groupes, efficace sur le plan computationnel, est proposée pour amortir le processus coûteux de calibration. Des expériences approfondies montrent qu'OBS-Diff atteint un état de l'art en matière d'élagage en une seule étape pour les modèles de diffusion, offrant une accélération de l'inférence avec une dégradation minimale de la qualité visuelle.
English
Large-scale text-to-image diffusion models, while powerful, suffer from prohibitive computational cost. Existing one-shot network pruning methods can hardly be directly applied to them due to the iterative denoising nature of diffusion models. To bridge the gap, this paper presents OBS-Diff, a novel one-shot pruning framework that enables accurate and training-free compression of large-scale text-to-image diffusion models. Specifically, (i) OBS-Diff revitalizes the classic Optimal Brain Surgeon (OBS), adapting it to the complex architectures of modern diffusion models and supporting diverse pruning granularity, including unstructured, N:M semi-structured, and structured (MHA heads and FFN neurons) sparsity; (ii) To align the pruning criteria with the iterative dynamics of the diffusion process, by examining the problem from an error-accumulation perspective, we propose a novel timestep-aware Hessian construction that incorporates a logarithmic-decrease weighting scheme, assigning greater importance to earlier timesteps to mitigate potential error accumulation; (iii) Furthermore, a computationally efficient group-wise sequential pruning strategy is proposed to amortize the expensive calibration process. Extensive experiments show that OBS-Diff achieves state-of-the-art one-shot pruning for diffusion models, delivering inference acceleration with minimal degradation in visual quality.
PDF162October 9, 2025