Modello di Consistenza a Fasi
Phased Consistency Model
May 28, 2024
Autori: Fu-Yun Wang, Zhaoyang Huang, Alexander William Bergman, Dazhong Shen, Peng Gao, Michael Lingelbach, Keqiang Sun, Weikang Bian, Guanglu Song, Yu Liu, Hongsheng Li, Xiaogang Wang
cs.AI
Abstract
Il modello di consistenza (CM) ha recentemente compiuto progressi significativi nell'accelerazione della generazione di modelli di diffusione. Tuttavia, la sua applicazione alla generazione di immagini ad alta risoluzione condizionate da testo nello spazio latente (noto come LCM) rimane insoddisfacente. In questo articolo, identifichiamo tre principali difetti nell'attuale progettazione dell'LCM. Investigiamo le ragioni alla base di queste limitazioni e proponiamo il Modello di Consistenza Faseggiata (PCM), che generalizza lo spazio di progettazione e affronta tutte le limitazioni identificate. Le nostre valutazioni dimostrano che il PCM supera significativamente l'LCM in contesti di generazione da 1 a 16 passi. Sebbene il PCM sia specificamente progettato per il raffinamento multi-passo, ottiene risultati di generazione a 1 passo superiori o comparabili ai metodi a 1 passo precedentemente all'avanguardia. Inoltre, mostriamo che la metodologia del PCM è versatile e applicabile alla generazione di video, consentendoci di addestrare il generatore testo-video a pochi passi più avanzato. Ulteriori dettagli sono disponibili su https://g-u-n.github.io/projects/pcm/.
English
The consistency model (CM) has recently made significant progress in
accelerating the generation of diffusion models. However, its application to
high-resolution, text-conditioned image generation in the latent space (a.k.a.,
LCM) remains unsatisfactory. In this paper, we identify three key flaws in the
current design of LCM. We investigate the reasons behind these limitations and
propose the Phased Consistency Model (PCM), which generalizes the design space
and addresses all identified limitations. Our evaluations demonstrate that PCM
significantly outperforms LCM across 1--16 step generation settings. While PCM
is specifically designed for multi-step refinement, it achieves even superior
or comparable 1-step generation results to previously state-of-the-art
specifically designed 1-step methods. Furthermore, we show that PCM's
methodology is versatile and applicable to video generation, enabling us to
train the state-of-the-art few-step text-to-video generator. More details are
available at https://g-u-n.github.io/projects/pcm/.