ChatPaper.aiChatPaper

Bilddiffusionsvorschau mit Konsistenzlöser

Image Diffusion Preview with Consistency Solver

December 15, 2025
papers.authors: Fu-Yun Wang, Hao Zhou, Liangzhe Yuan, Sanghyun Woo, Boqing Gong, Bohyung Han, Ming-Hsuan Yang, Han Zhang, Yukun Zhu, Ting Liu, Long Zhao
cs.AI

papers.abstract

Der langsame Inferenzprozess von Bilddiffusionsmodellen beeinträchtigt interaktive Benutzererfahrungen erheblich. Um dies zu adressieren, führen wir Diffusion Preview ein, ein neuartiges Paradigma, das schnelles Sampling mit wenigen Schritten nutzt, um vorläufige Ergebnisse zur Benutzerbewertung zu generieren und die Verfeinerung mit voller Schrittzahl aufzuschieben, bis die Vorschau als zufriedenstellend bewertet wird. Bestehende Beschleunigungsmethoden – einschließlich trainingsfreier Solver und Post-Training-Distillation – liefern nur unzureichend hochwertige Vorschauen oder garantieren keine Konsistenz zwischen Vorschau und Endergebnissen. Wir schlagen ConsistencySolver vor, abgeleitet aus allgemeinen linearen Mehrschrittverfahren, einen leichtgewichtigen, trainierbaren Solver höherer Ordnung, der durch Reinforcement Learning optimiert wird und sowohl die Vorschauqualität als auch die Konsistenz verbessert. Experimentelle Ergebnisse zeigen, dass ConsistencySolver die Generierungsqualität und Konsistenz in Szenarien mit wenigen Schritten signifikant steigert, was ihn ideal für effiziente Vorschau-und-Verfeinern-Arbeitsabläufe macht. Bemerkenswerterweise erreicht er FID-Werte, die mit Multistep DPM-Solver vergleichbar sind, jedoch mit 47 % weniger Schritten, und übertrifft dabei Distillations-Baselines. Darüber hinaus zeigen Benutzerstudien, dass unser Ansatz die gesamte Benutzerinteraktionszeit um fast 50 % reduziert, bei gleichbleibender Generierungsqualität. Code ist verfügbar unter https://github.com/G-U-N/consolver.
English
The slow inference process of image diffusion models significantly degrades interactive user experiences. To address this, we introduce Diffusion Preview, a novel paradigm employing rapid, low-step sampling to generate preliminary outputs for user evaluation, deferring full-step refinement until the preview is deemed satisfactory. Existing acceleration methods, including training-free solvers and post-training distillation, struggle to deliver high-quality previews or ensure consistency between previews and final outputs. We propose ConsistencySolver derived from general linear multistep methods, a lightweight, trainable high-order solver optimized via Reinforcement Learning, that enhances preview quality and consistency. Experimental results demonstrate that ConsistencySolver significantly improves generation quality and consistency in low-step scenarios, making it ideal for efficient preview-and-refine workflows. Notably, it achieves FID scores on-par with Multistep DPM-Solver using 47% fewer steps, while outperforming distillation baselines. Furthermore, user studies indicate our approach reduces overall user interaction time by nearly 50% while maintaining generation quality. Code is available at https://github.com/G-U-N/consolver.
PDF62December 17, 2025