Phasen-KonsistenzmodellPhased Consistency Model
Das Konsistenzmodell (CM) hat in letzter Zeit signifikante Fortschritte bei der Beschleunigung der Generierung von Diffusionsmodellen gemacht. Allerdings bleibt seine Anwendung auf die hochauflösende, textbedingte Bildgenerierung im latenten Raum (auch bekannt als LCM) unbefriedigend. In diesem Artikel identifizieren wir drei wesentliche Mängel im aktuellen Design des LCM. Wir untersuchen die Gründe für diese Einschränkungen und schlagen das Phased Consistency Model (PCM) vor, das den Designraum verallgemeinert und alle identifizierten Einschränkungen angeht. Unsere Bewertungen zeigen, dass PCM bei Einstellungen zur Generierung von 1 bis 16 Schritten signifikant besser abschneidet als LCM. Obwohl PCM speziell für die Mehrschrittverfeinerung konzipiert ist, erzielt es sogar überlegene oder vergleichbare Ergebnisse bei der 1-Schritt-Generierung im Vergleich zu zuvor führenden speziell konzipierten 1-Schritt-Methoden. Darüber hinaus zeigen wir, dass die Methodik von PCM vielseitig ist und auf die Videogenerierung anwendbar ist, was es uns ermöglicht, den führenden wenige-Schritt-Text-zu-Video-Generator zu trainieren. Weitere Details finden Sie unter https://g-u-n.github.io/projects/pcm/.