Control4D: Modifica Dinamica di Ritratti Apprendendo GAN 4D da un Editor Basato su Diffusione 2D
Control4D: Dynamic Portrait Editing by Learning 4D GAN from 2D Diffusion-based Editor
May 31, 2023
Autori: Ruizhi Shao, Jingxiang Sun, Cheng Peng, Zerong Zheng, Boyao Zhou, Hongwen Zhang, Yebin Liu
cs.AI
Abstract
Negli ultimi anni si sono registrati notevoli progressi nel campo della modifica delle immagini tramite istruzioni testuali. Tuttavia, quando questi editor vengono applicati alla modifica di scene dinamiche, la nuova scena tende a essere temporalmente incoerente a causa della natura frame-by-frame di questi editor 2D. Per affrontare questo problema, proponiamo Control4D, un approccio innovativo per la modifica di ritratti 4D ad alta fedeltà e temporalmente coerente. Control4D si basa su una rappresentazione 4D efficiente con un editor basato su diffusione 2D. Invece di utilizzare supervisioni dirette dall'editor, il nostro metodo apprende un GAN 4D da esso ed evita i segnali di supervisione incoerenti. Nello specifico, utilizziamo un discriminatore per apprendere la distribuzione di generazione basata sulle immagini modificate e poi aggiorniamo il generatore con i segnali di discriminazione. Per un addestramento più stabile, vengono estratte informazioni multi-livello dalle immagini modificate e utilizzate per facilitare l'apprendimento del generatore. I risultati sperimentali mostrano che Control4D supera i precedenti approcci e raggiunge prestazioni di modifica 4D più fotorealistiche e coerenti. Il link al nostro sito web del progetto è https://control4darxiv.github.io.
English
Recent years have witnessed considerable achievements in editing images with
text instructions. When applying these editors to dynamic scene editing, the
new-style scene tends to be temporally inconsistent due to the frame-by-frame
nature of these 2D editors. To tackle this issue, we propose Control4D, a novel
approach for high-fidelity and temporally consistent 4D portrait editing.
Control4D is built upon an efficient 4D representation with a 2D
diffusion-based editor. Instead of using direct supervisions from the editor,
our method learns a 4D GAN from it and avoids the inconsistent supervision
signals. Specifically, we employ a discriminator to learn the generation
distribution based on the edited images and then update the generator with the
discrimination signals. For more stable training, multi-level information is
extracted from the edited images and used to facilitate the learning of the
generator. Experimental results show that Control4D surpasses previous
approaches and achieves more photo-realistic and consistent 4D editing
performances. The link to our project website is
https://control4darxiv.github.io.