Control4D: Edição Dinâmica de Retratos através do Aprendizado de GAN 4D a partir de um Editor Baseado em Difusão 2D

Resumo

Nos últimos anos, observamos avanços significativos na edição de imagens com instruções textuais. Ao aplicar esses editores à edição de cenas dinâmicas, a nova cena tende a ser temporalmente inconsistente devido à natureza quadro a quadro desses editores 2D. Para resolver esse problema, propomos o Control4D, uma abordagem inovadora para edição de retratos 4D de alta fidelidade e consistência temporal. O Control4D é construído sobre uma representação 4D eficiente com um editor baseado em difusão 2D. Em vez de usar supervisões diretas do editor, nosso método aprende um GAN 4D a partir dele e evita os sinais de supervisão inconsistentes. Especificamente, empregamos um discriminador para aprender a distribuição de geração com base nas imagens editadas e, em seguida, atualizamos o gerador com os sinais de discriminação. Para um treinamento mais estável, informações em múltiplos níveis são extraídas das imagens editadas e usadas para facilitar o aprendizado do gerador. Os resultados experimentais mostram que o Control4D supera abordagens anteriores e alcança performances de edição 4D mais foto-realistas e consistentes. O link para o site do nosso projeto é https://control4darxiv.github.io.

English

Recent years have witnessed considerable achievements in editing images with text instructions. When applying these editors to dynamic scene editing, the new-style scene tends to be temporally inconsistent due to the frame-by-frame nature of these 2D editors. To tackle this issue, we propose Control4D, a novel approach for high-fidelity and temporally consistent 4D portrait editing. Control4D is built upon an efficient 4D representation with a 2D diffusion-based editor. Instead of using direct supervisions from the editor, our method learns a 4D GAN from it and avoids the inconsistent supervision signals. Specifically, we employ a discriminator to learn the generation distribution based on the edited images and then update the generator with the discrimination signals. For more stable training, multi-level information is extracted from the edited images and used to facilitate the learning of the generator. Experimental results show that Control4D surpasses previous approaches and achieves more photo-realistic and consistent 4D editing performances. The link to our project website is https://control4darxiv.github.io.

Control4D: Edição Dinâmica de Retratos através do Aprendizado de GAN 4D a partir de um Editor Baseado em Difusão 2D

Control4D: Dynamic Portrait Editing by Learning 4D GAN from 2D Diffusion-based Editor

Resumo

Support