ChatPaper.aiChatPaper

Visualização de Difusão de Imagem com Solucionador de Consistência

Image Diffusion Preview with Consistency Solver

December 15, 2025
Autores: Fu-Yun Wang, Hao Zhou, Liangzhe Yuan, Sanghyun Woo, Boqing Gong, Bohyung Han, Ming-Hsuan Yang, Han Zhang, Yukun Zhu, Ting Liu, Long Zhao
cs.AI

Resumo

O processo lento de inferência dos modelos de difusão de imagens degrada significativamente as experiências interativas dos utilizadores. Para resolver este problema, introduzimos o Diffusion Preview, um novo paradigma que emprega amostragem rápida com poucos passos para gerar resultados preliminares para avaliação do utilizador, adiando o refinamento completo até que a pré-visualização seja considerada satisfatória. Os métodos de aceleração existentes, incluindo solvers sem treino e destilação pós-treinamento, lutam para fornecer pré-visualizações de alta qualidade ou garantir consistência entre as pré-visualizações e os resultados finais. Propomos o ConsistencySolver, derivado de métodos lineares multidegrau gerais, um solver treinável de alta ordem e leve otimizado via Aprendizagem por Reforço, que melhora a qualidade e a consistência da pré-visualização. Resultados experimentais demonstram que o ConsistencySolver melhora significativamente a qualidade e consistência da geração em cenários com poucos passos, tornando-o ideal para fluxos de trabalho eficientes de pré-visualização e refinamento. Notavelmente, atinge pontuações FID equivalentes ao Multistep DPM-Solver usando 47% menos passos, superando ainda as linhas de base de destilação. Além disso, estudos com utilizadores indicam que a nossa abordagem reduz o tempo total de interação do utilizador em quase 50%, mantendo a qualidade da geração. O código está disponível em https://github.com/G-U-N/consolver.
English
The slow inference process of image diffusion models significantly degrades interactive user experiences. To address this, we introduce Diffusion Preview, a novel paradigm employing rapid, low-step sampling to generate preliminary outputs for user evaluation, deferring full-step refinement until the preview is deemed satisfactory. Existing acceleration methods, including training-free solvers and post-training distillation, struggle to deliver high-quality previews or ensure consistency between previews and final outputs. We propose ConsistencySolver derived from general linear multistep methods, a lightweight, trainable high-order solver optimized via Reinforcement Learning, that enhances preview quality and consistency. Experimental results demonstrate that ConsistencySolver significantly improves generation quality and consistency in low-step scenarios, making it ideal for efficient preview-and-refine workflows. Notably, it achieves FID scores on-par with Multistep DPM-Solver using 47% fewer steps, while outperforming distillation baselines. Furthermore, user studies indicate our approach reduces overall user interaction time by nearly 50% while maintaining generation quality. Code is available at https://github.com/G-U-N/consolver.
PDF83March 6, 2026