ChatPaper.aiChatPaper

Предварительный просмотр диффузии изображений с решателем согласованности

Image Diffusion Preview with Consistency Solver

December 15, 2025
Авторы: Fu-Yun Wang, Hao Zhou, Liangzhe Yuan, Sanghyun Woo, Boqing Gong, Bohyung Han, Ming-Hsuan Yang, Han Zhang, Yukun Zhu, Ting Liu, Long Zhao
cs.AI

Аннотация

Медленный процесс вывода диффузионных моделей изображений значительно ухудшает интерактивный пользовательский опыт. Для решения этой проблемы мы представляем Diffusion Preview — новую парадигму, использующую быструю выборку с малым числом шагов для генерации предварительных результатов оценки пользователем, откладывая полное пошаговое уточнение до тех пор, пока превью не будет признано удовлетворительным. Существующие методы ускорения, включая решатели без обучения и пост-тренировочную дистилляцию, не способны обеспечить высокое качество превью или гарантировать согласованность между превью и финальными результатами. Мы предлагаем ConsistencySolver, основанный на общих линейных многошаговых методах, — легкий обучаемый решатель высокого порядка, оптимизированный с помощью обучения с подкреплением, который улучшает качество превью и согласованность. Экспериментальные результаты демонстрируют, что ConsistencySolver значительно повышает качество генерации и согласованность в сценариях с малым числом шагов, что делает его идеальным для эффективных рабочих процессов «превью-и-уточнение». Примечательно, что он достигает показателей FID, сопоставимых с Multistep DPM-Solver, используя на 47% меньше шагов, и превосходит базовые методы дистилляции. Кроме того, пользовательские исследования показывают, что наш подход сокращает общее время взаимодействия пользователя почти на 50%, сохраняя качество генерации. Код доступен по адресу https://github.com/G-U-N/consolver.
English
The slow inference process of image diffusion models significantly degrades interactive user experiences. To address this, we introduce Diffusion Preview, a novel paradigm employing rapid, low-step sampling to generate preliminary outputs for user evaluation, deferring full-step refinement until the preview is deemed satisfactory. Existing acceleration methods, including training-free solvers and post-training distillation, struggle to deliver high-quality previews or ensure consistency between previews and final outputs. We propose ConsistencySolver derived from general linear multistep methods, a lightweight, trainable high-order solver optimized via Reinforcement Learning, that enhances preview quality and consistency. Experimental results demonstrate that ConsistencySolver significantly improves generation quality and consistency in low-step scenarios, making it ideal for efficient preview-and-refine workflows. Notably, it achieves FID scores on-par with Multistep DPM-Solver using 47% fewer steps, while outperforming distillation baselines. Furthermore, user studies indicate our approach reduces overall user interaction time by nearly 50% while maintaining generation quality. Code is available at https://github.com/G-U-N/consolver.
PDF62December 17, 2025