Aperçu de la Diffusion d'Images avec Solveur de Cohérence
Image Diffusion Preview with Consistency Solver
December 15, 2025
papers.authors: Fu-Yun Wang, Hao Zhou, Liangzhe Yuan, Sanghyun Woo, Boqing Gong, Bohyung Han, Ming-Hsuan Yang, Han Zhang, Yukun Zhu, Ting Liu, Long Zhao
cs.AI
papers.abstract
La lenteur du processus d'inférence des modèles de diffusion d'images dégrade significativement l'expérience utilisateur interactive. Pour y remédier, nous introduisons Diffusion Preview, un nouveau paradigme utilisant un échantillonnage rapide à faible nombre d'étapes pour générer des résultats préliminaires destinés à l'évaluation par l'utilisateur, en reportant le raffinement complet jusqu'à ce que l'aperçu soit jugé satisfaisant. Les méthodes d'accélération existantes, incluant les solveurs sans apprentissage et la distillation post-entraînement, peinent à fournir des aperçus de haute qualité ou à garantir la cohérence entre les aperçus et les résultats finaux. Nous proposons ConsistencySolver, dérivé des méthodes linéaires multi-pas générales, un solveur entraînable léger d'ordre supérieur optimisé par apprentissage par renforcement, qui améliore la qualité et la cohérence des aperçus. Les résultats expérimentaux démontrent que ConsistencySolver améliore significativement la qualité de génération et la cohérence dans les scénarios à faible nombre d'étapes, le rendant idéal pour les workflows efficaces de prévisualisation et de raffinement. Notamment, il atteint des scores FID équivalents à Multistep DPM-Solver en utilisant 47 % d'étapes en moins, tout en surpassant les modèles de référence par distillation. De plus, les études utilisateurs indiquent que notre approche réduit le temps d'interaction global de près de 50 % tout en maintenant la qualité de génération. Le code est disponible à l'adresse https://github.com/G-U-N/consolver.
English
The slow inference process of image diffusion models significantly degrades interactive user experiences. To address this, we introduce Diffusion Preview, a novel paradigm employing rapid, low-step sampling to generate preliminary outputs for user evaluation, deferring full-step refinement until the preview is deemed satisfactory. Existing acceleration methods, including training-free solvers and post-training distillation, struggle to deliver high-quality previews or ensure consistency between previews and final outputs. We propose ConsistencySolver derived from general linear multistep methods, a lightweight, trainable high-order solver optimized via Reinforcement Learning, that enhances preview quality and consistency. Experimental results demonstrate that ConsistencySolver significantly improves generation quality and consistency in low-step scenarios, making it ideal for efficient preview-and-refine workflows. Notably, it achieves FID scores on-par with Multistep DPM-Solver using 47% fewer steps, while outperforming distillation baselines. Furthermore, user studies indicate our approach reduces overall user interaction time by nearly 50% while maintaining generation quality. Code is available at https://github.com/G-U-N/consolver.