일관성 솔버를 활용한 이미지 확산 미리보기
Image Diffusion Preview with Consistency Solver
December 15, 2025
저자: Fu-Yun Wang, Hao Zhou, Liangzhe Yuan, Sanghyun Woo, Boqing Gong, Bohyung Han, Ming-Hsuan Yang, Han Zhang, Yukun Zhu, Ting Liu, Long Zhao
cs.AI
초록
이미지 확산 모델의 느린 추론 과정은 상호작용적 사용자 경험을 크게 저하시킵니다. 이를 해결하기 위해 우리는 신속한 저스텝 샘플링을 통해 사용자 평가를 위한 예비 결과를 생성하고, 미리보기가 만족스러울 때까지 전체 스텝 정제를 연기하는 새로운 패러다임인 Diffusion Preview를 소개합니다. 학습 없이 적용 가능한 솔버와 학습 후 경량화 방법을 포함한 기존 가속화 기술은 고품질 미리보기 제공이나 미리보기와 최종 결과 간 일관성 보장에 어려움을 겪습니다. 우리는 일반 선형 다단계 방법에서 유래한 ConsistencySolver를 제안합니다. 이는 강화 학습을 통해 최적화된 경량화된 학습 가능 고차 솔버로, 미리보기 품질과 일관성을 향상시킵니다. 실험 결과는 ConsistencySolver가 저스텝 시나리오에서 생성 품질과 일관성을 크게 개선하여 효율적인 미리보기-정제 워크플로우에 이상적임을 보여줍니다. 특히 이 방법은 Multistep DPM-Solver 대비 47% 더 적은 스텝으로 동등한 FID 점수를 달성하면서 경량화 기준 모델들을 능가합니다. 더불어 사용자 연구 결과, 우리의 접근법이 생성 품질을 유지하면서 전체 사용자 상호작용 시간을 약 50% 단축하는 것으로 나타났습니다. 코드는 https://github.com/G-U-N/consolver에서 확인할 수 있습니다.
English
The slow inference process of image diffusion models significantly degrades interactive user experiences. To address this, we introduce Diffusion Preview, a novel paradigm employing rapid, low-step sampling to generate preliminary outputs for user evaluation, deferring full-step refinement until the preview is deemed satisfactory. Existing acceleration methods, including training-free solvers and post-training distillation, struggle to deliver high-quality previews or ensure consistency between previews and final outputs. We propose ConsistencySolver derived from general linear multistep methods, a lightweight, trainable high-order solver optimized via Reinforcement Learning, that enhances preview quality and consistency. Experimental results demonstrate that ConsistencySolver significantly improves generation quality and consistency in low-step scenarios, making it ideal for efficient preview-and-refine workflows. Notably, it achieves FID scores on-par with Multistep DPM-Solver using 47% fewer steps, while outperforming distillation baselines. Furthermore, user studies indicate our approach reduces overall user interaction time by nearly 50% while maintaining generation quality. Code is available at https://github.com/G-U-N/consolver.