Beelddiffusie Voorvertoning met Consistentieoplosser
Image Diffusion Preview with Consistency Solver
December 15, 2025
Auteurs: Fu-Yun Wang, Hao Zhou, Liangzhe Yuan, Sanghyun Woo, Boqing Gong, Bohyung Han, Ming-Hsuan Yang, Han Zhang, Yukun Zhu, Ting Liu, Long Zhao
cs.AI
Samenvatting
Het trage inferentieproces van beelddiffusiemodellen verslechtert de interactieve gebruikerservaring aanzienlijk. Om dit aan te pakken, introduceren we Diffusion Preview, een nieuwe paradigma dat gebruikmaakt van snelle, low-step sampling om voorlopige resultaten te genereren voor gebruikersevaluatie, waarbij de verfijning met volledige stappen wordt uitgesteld tot de preview als bevredigend wordt beoordeeld. Bestaande versnellingsmethoden, waaronder training-free solvers en post-training distillatie, slagen er niet in hoogwaardige previews te leveren of consistentie tussen previews en finale outputs te garanderen. Wij stellen ConsistencySolver voor, afgeleid van algemene lineaire multistap-methoden, een lichtgewicht, trainbare high-order solver geoptimaliseerd via Reinforcement Learning, die de preview-kwaliteit en consistentie verbetert. Experimentele resultaten tonen aan dat ConsistencySolver de generatiekwaliteit en consistentie in low-step scenario's aanzienlijk verbetert, waardoor het ideaal is voor efficiënte preview-and-refine workflows. Opmerkelijk is dat het FID-scores bereikt die vergelijkbaar zijn met Multistep DPM-Solver met 47% minder stappen, terwijl het distillatie-baselines overtreft. Bovendien tonen gebruikersstudies aan dat onze aanpak de totale gebruikersinteractietijd met bijna 50% vermindert, terwijl de generatiekwaliteit behouden blijft. Code is beschikbaar op https://github.com/G-U-N/consolver.
English
The slow inference process of image diffusion models significantly degrades interactive user experiences. To address this, we introduce Diffusion Preview, a novel paradigm employing rapid, low-step sampling to generate preliminary outputs for user evaluation, deferring full-step refinement until the preview is deemed satisfactory. Existing acceleration methods, including training-free solvers and post-training distillation, struggle to deliver high-quality previews or ensure consistency between previews and final outputs. We propose ConsistencySolver derived from general linear multistep methods, a lightweight, trainable high-order solver optimized via Reinforcement Learning, that enhances preview quality and consistency. Experimental results demonstrate that ConsistencySolver significantly improves generation quality and consistency in low-step scenarios, making it ideal for efficient preview-and-refine workflows. Notably, it achieves FID scores on-par with Multistep DPM-Solver using 47% fewer steps, while outperforming distillation baselines. Furthermore, user studies indicate our approach reduces overall user interaction time by nearly 50% while maintaining generation quality. Code is available at https://github.com/G-U-N/consolver.