ChatPaper.aiChatPaper

Vista Previa de Difusión de Imágenes con Solucionador de Consistencia

Image Diffusion Preview with Consistency Solver

December 15, 2025
Autores: Fu-Yun Wang, Hao Zhou, Liangzhe Yuan, Sanghyun Woo, Boqing Gong, Bohyung Han, Ming-Hsuan Yang, Han Zhang, Yukun Zhu, Ting Liu, Long Zhao
cs.AI

Resumen

El lento proceso de inferencia de los modelos de difusión de imágenes degrada significativamente la experiencia interactiva del usuario. Para abordar este problema, presentamos Diffusion Preview, un nuevo paradigma que emplea muestreos rápidos con pocos pasos para generar resultados preliminares que el usuario puede evaluar, posponiendo el refinamiento completo hasta que la vista previa se considere satisfactoria. Los métodos de aceleración existentes, incluidos los solucionadores sin entrenamiento y la destilación posterior al entrenamiento, tienen dificultades para ofrecer vistas previas de alta calidad o garantizar la coherencia entre las vistas previas y los resultados finales. Proponemos ConsistencySolver, derivado de métodos lineales multipaso generales, un solucionador entrenable ligero de alto orden optimizado mediante Aprendizaje por Refuerzo, que mejora la calidad y coherencia de las vistas previas. Los resultados experimentales demuestran que ConsistencySolver mejora significativamente la calidad de generación y la coherencia en escenarios con pocos pasos, lo que lo hace ideal para flujos de trabajo eficientes de vista previa y refinamiento. Cabe destacar que logra puntuaciones FID comparables a Multistep DPM-Solver utilizando un 47% menos de pasos, superando además a los métodos base de destilación. Además, estudios con usuarios indican que nuestro enfoque reduce el tiempo total de interacción del usuario en casi un 50%, manteniendo la calidad de generación. El código está disponible en https://github.com/G-U-N/consolver.
English
The slow inference process of image diffusion models significantly degrades interactive user experiences. To address this, we introduce Diffusion Preview, a novel paradigm employing rapid, low-step sampling to generate preliminary outputs for user evaluation, deferring full-step refinement until the preview is deemed satisfactory. Existing acceleration methods, including training-free solvers and post-training distillation, struggle to deliver high-quality previews or ensure consistency between previews and final outputs. We propose ConsistencySolver derived from general linear multistep methods, a lightweight, trainable high-order solver optimized via Reinforcement Learning, that enhances preview quality and consistency. Experimental results demonstrate that ConsistencySolver significantly improves generation quality and consistency in low-step scenarios, making it ideal for efficient preview-and-refine workflows. Notably, it achieves FID scores on-par with Multistep DPM-Solver using 47% fewer steps, while outperforming distillation baselines. Furthermore, user studies indicate our approach reduces overall user interaction time by nearly 50% while maintaining generation quality. Code is available at https://github.com/G-U-N/consolver.
PDF62December 17, 2025