Anteprima di Diffusione di Immagini con Risolutore di Coerenza
Image Diffusion Preview with Consistency Solver
December 15, 2025
Autori: Fu-Yun Wang, Hao Zhou, Liangzhe Yuan, Sanghyun Woo, Boqing Gong, Bohyung Han, Ming-Hsuan Yang, Han Zhang, Yukun Zhu, Ting Liu, Long Zhao
cs.AI
Abstract
Il lento processo di inferenza dei modelli di diffusione di immagini degrada significativamente l'esperienza utente interattiva. Per affrontare questo problema, introduciamo Diffusion Preview, un nuovo paradigma che utilizza un campionamento rapido a basso numero di passi per generare output preliminari per la valutazione dell'utente, rinviando l'affinamento completo fino a quando l'anteprima non è ritenuta soddisfacente. I metodi di accelerazione esistenti, inclusi i risolutori senza addestramento e la distillazione post-addestramento, faticano a fornire anteprime di alta qualità o a garantire la coerenza tra anteprime e output finali. Proponiamo ConsistencySolver, derivato dai metodi lineari multistep generali, un risolutore addestrabile di ordine elevato e leggero, ottimizzato tramite Apprendimento per Rinforzo, che migliora la qualità e la coerenza dell'anteprima. I risultati sperimentali dimostrano che ConsistencySolver migliora significativamente la qualità della generazione e la coerenza in scenari a basso numero di passi, rendendolo ideale per flussi di lavoro efficienti di tipo "anteprima e affina". In particolare, raggiunge punteggi FID paragonabili a Multistep DPM-Solver utilizzando il 47% in meno di passi, superando allo stesso tempo i baseline di distillazione. Inoltre, studi sugli utenti indicano che il nostro approccio riduce il tempo totale di interazione dell'utente di quasi il 50% mantenendo la qualità della generazione. Il codice è disponibile all'indirizzo https://github.com/G-U-N/consolver.
English
The slow inference process of image diffusion models significantly degrades interactive user experiences. To address this, we introduce Diffusion Preview, a novel paradigm employing rapid, low-step sampling to generate preliminary outputs for user evaluation, deferring full-step refinement until the preview is deemed satisfactory. Existing acceleration methods, including training-free solvers and post-training distillation, struggle to deliver high-quality previews or ensure consistency between previews and final outputs. We propose ConsistencySolver derived from general linear multistep methods, a lightweight, trainable high-order solver optimized via Reinforcement Learning, that enhances preview quality and consistency. Experimental results demonstrate that ConsistencySolver significantly improves generation quality and consistency in low-step scenarios, making it ideal for efficient preview-and-refine workflows. Notably, it achieves FID scores on-par with Multistep DPM-Solver using 47% fewer steps, while outperforming distillation baselines. Furthermore, user studies indicate our approach reduces overall user interaction time by nearly 50% while maintaining generation quality. Code is available at https://github.com/G-U-N/consolver.