Control4D: Edição Dinâmica de Retratos através do Aprendizado de GAN 4D a partir de um Editor Baseado em Difusão 2D
Control4D: Dynamic Portrait Editing by Learning 4D GAN from 2D Diffusion-based Editor
May 31, 2023
Autores: Ruizhi Shao, Jingxiang Sun, Cheng Peng, Zerong Zheng, Boyao Zhou, Hongwen Zhang, Yebin Liu
cs.AI
Resumo
Nos últimos anos, observamos avanços significativos na edição de imagens com instruções textuais. Ao aplicar esses editores à edição de cenas dinâmicas, a nova cena tende a ser temporalmente inconsistente devido à natureza quadro a quadro desses editores 2D. Para resolver esse problema, propomos o Control4D, uma abordagem inovadora para edição de retratos 4D de alta fidelidade e consistência temporal. O Control4D é construído sobre uma representação 4D eficiente com um editor baseado em difusão 2D. Em vez de usar supervisões diretas do editor, nosso método aprende um GAN 4D a partir dele e evita os sinais de supervisão inconsistentes. Especificamente, empregamos um discriminador para aprender a distribuição de geração com base nas imagens editadas e, em seguida, atualizamos o gerador com os sinais de discriminação. Para um treinamento mais estável, informações em múltiplos níveis são extraídas das imagens editadas e usadas para facilitar o aprendizado do gerador. Os resultados experimentais mostram que o Control4D supera abordagens anteriores e alcança performances de edição 4D mais foto-realistas e consistentes. O link para o site do nosso projeto é https://control4darxiv.github.io.
English
Recent years have witnessed considerable achievements in editing images with
text instructions. When applying these editors to dynamic scene editing, the
new-style scene tends to be temporally inconsistent due to the frame-by-frame
nature of these 2D editors. To tackle this issue, we propose Control4D, a novel
approach for high-fidelity and temporally consistent 4D portrait editing.
Control4D is built upon an efficient 4D representation with a 2D
diffusion-based editor. Instead of using direct supervisions from the editor,
our method learns a 4D GAN from it and avoids the inconsistent supervision
signals. Specifically, we employ a discriminator to learn the generation
distribution based on the edited images and then update the generator with the
discrimination signals. For more stable training, multi-level information is
extracted from the edited images and used to facilitate the learning of the
generator. Experimental results show that Control4D surpasses previous
approaches and achieves more photo-realistic and consistent 4D editing
performances. The link to our project website is
https://control4darxiv.github.io.