Control4D: Edición Dinámica de Retratos mediante el Aprendizaje de GAN 4D a partir de un Editor Basado en Difusión 2D

Resumen

En los últimos años, se han logrado avances considerables en la edición de imágenes mediante instrucciones de texto. Sin embargo, al aplicar estos editores a la edición de escenas dinámicas, la nueva escena tiende a ser temporalmente inconsistente debido a la naturaleza cuadro por cuadro de estos editores 2D. Para abordar este problema, proponemos Control4D, un enfoque novedoso para la edición de retratos 4D de alta fidelidad y consistencia temporal. Control4D se basa en una representación 4D eficiente junto con un editor basado en difusión 2D. En lugar de utilizar supervisiones directas del editor, nuestro método aprende un GAN 4D a partir de él y evita las señales de supervisión inconsistentes. Específicamente, empleamos un discriminador para aprender la distribución de generación basada en las imágenes editadas y luego actualizamos el generador con las señales de discriminación. Para un entrenamiento más estable, se extrae información multinivel de las imágenes editadas y se utiliza para facilitar el aprendizaje del generador. Los resultados experimentales muestran que Control4D supera a los enfoques anteriores y logra ediciones 4D más fotorrealistas y consistentes. El enlace a nuestro sitio web del proyecto es https://control4darxiv.github.io.

English

Recent years have witnessed considerable achievements in editing images with text instructions. When applying these editors to dynamic scene editing, the new-style scene tends to be temporally inconsistent due to the frame-by-frame nature of these 2D editors. To tackle this issue, we propose Control4D, a novel approach for high-fidelity and temporally consistent 4D portrait editing. Control4D is built upon an efficient 4D representation with a 2D diffusion-based editor. Instead of using direct supervisions from the editor, our method learns a 4D GAN from it and avoids the inconsistent supervision signals. Specifically, we employ a discriminator to learn the generation distribution based on the edited images and then update the generator with the discrimination signals. For more stable training, multi-level information is extracted from the edited images and used to facilitate the learning of the generator. Experimental results show that Control4D surpasses previous approaches and achieves more photo-realistic and consistent 4D editing performances. The link to our project website is https://control4darxiv.github.io.

Control4D: Edición Dinámica de Retratos mediante el Aprendizaje de GAN 4D a partir de un Editor Basado en Difusión 2D

Control4D: Dynamic Portrait Editing by Learning 4D GAN from 2D Diffusion-based Editor

Resumen

Support