Control4D: Dynamische Porträtbearbeitung durch Erlernen eines 4D-GANs aus einem 2D-Diffusionsbasierten Editor
Control4D: Dynamic Portrait Editing by Learning 4D GAN from 2D Diffusion-based Editor
May 31, 2023
Autoren: Ruizhi Shao, Jingxiang Sun, Cheng Peng, Zerong Zheng, Boyao Zhou, Hongwen Zhang, Yebin Liu
cs.AI
Zusammenfassung
In den letzten Jahren wurden erhebliche Fortschritte bei der Bearbeitung von Bildern mit Textanweisungen erzielt. Wenn diese Editoren jedoch auf die Bearbeitung dynamischer Szenen angewendet werden, neigt die neu gestaltete Szene aufgrund der Frame-für-Frame-Natur dieser 2D-Editoren zu zeitlicher Inkonsistenz. Um dieses Problem zu lösen, schlagen wir Control4D vor, einen neuartigen Ansatz für hochwertige und zeitlich konsistente 4D-Porträtbearbeitung. Control4D basiert auf einer effizienten 4D-Darstellung mit einem 2D-Diffusions-basierten Editor. Anstatt direkte Überwachungen des Editors zu verwenden, lernt unsere Methode ein 4D-GAN daraus und vermeidet inkonsistente Überwachungssignale. Insbesondere setzen wir einen Diskriminator ein, um die Generierungsverteilung basierend auf den bearbeiteten Bildern zu lernen, und aktualisieren dann den Generator mit den Diskriminierungssignalen. Für ein stabileres Training werden mehrstufige Informationen aus den bearbeiteten Bildern extrahiert und verwendet, um das Lernen des Generators zu erleichtern. Experimentelle Ergebnisse zeigen, dass Control4D frühere Ansätze übertrifft und fotorealistischere und konsistentere 4D-Bearbeitungsleistungen erzielt. Der Link zu unserer Projektwebsite ist https://control4darxiv.github.io.
English
Recent years have witnessed considerable achievements in editing images with
text instructions. When applying these editors to dynamic scene editing, the
new-style scene tends to be temporally inconsistent due to the frame-by-frame
nature of these 2D editors. To tackle this issue, we propose Control4D, a novel
approach for high-fidelity and temporally consistent 4D portrait editing.
Control4D is built upon an efficient 4D representation with a 2D
diffusion-based editor. Instead of using direct supervisions from the editor,
our method learns a 4D GAN from it and avoids the inconsistent supervision
signals. Specifically, we employ a discriminator to learn the generation
distribution based on the edited images and then update the generator with the
discrimination signals. For more stable training, multi-level information is
extracted from the edited images and used to facilitate the learning of the
generator. Experimental results show that Control4D surpasses previous
approaches and achieves more photo-realistic and consistent 4D editing
performances. The link to our project website is
https://control4darxiv.github.io.