ChatPaper.aiChatPaper

Control4D : Édition dynamique de portraits par apprentissage d'un GAN 4D à partir d'un éditeur basé sur la diffusion 2D

Control4D: Dynamic Portrait Editing by Learning 4D GAN from 2D Diffusion-based Editor

May 31, 2023
Auteurs: Ruizhi Shao, Jingxiang Sun, Cheng Peng, Zerong Zheng, Boyao Zhou, Hongwen Zhang, Yebin Liu
cs.AI

Résumé

Ces dernières années ont vu des avancées significatives dans l'édition d'images à l'aide d'instructions textuelles. Cependant, lorsque ces éditeurs sont appliqués à la modification de scènes dynamiques, la nouvelle scène tend à manquer de cohérence temporelle en raison de la nature image par image de ces éditeurs 2D. Pour résoudre ce problème, nous proposons Control4D, une nouvelle approche pour l'édition 4D de portraits haute fidélité et cohérente dans le temps. Control4D repose sur une représentation 4D efficace associée à un éditeur basé sur la diffusion 2D. Plutôt que d'utiliser des supervisions directes de l'éditeur, notre méthode apprend un GAN 4D à partir de celui-ci et évite ainsi les signaux de supervision incohérents. Plus précisément, nous utilisons un discriminateur pour apprendre la distribution de génération à partir des images éditées, puis mettons à jour le générateur avec les signaux de discrimination. Pour un entraînement plus stable, des informations multi-niveaux sont extraites des images éditées et utilisées pour faciliter l'apprentissage du générateur. Les résultats expérimentaux montrent que Control4D surpasse les approches précédentes et atteint des performances d'édition 4D plus photoréalistes et cohérentes. Le lien vers notre site web de projet est https://control4darxiv.github.io.
English
Recent years have witnessed considerable achievements in editing images with text instructions. When applying these editors to dynamic scene editing, the new-style scene tends to be temporally inconsistent due to the frame-by-frame nature of these 2D editors. To tackle this issue, we propose Control4D, a novel approach for high-fidelity and temporally consistent 4D portrait editing. Control4D is built upon an efficient 4D representation with a 2D diffusion-based editor. Instead of using direct supervisions from the editor, our method learns a 4D GAN from it and avoids the inconsistent supervision signals. Specifically, we employ a discriminator to learn the generation distribution based on the edited images and then update the generator with the discrimination signals. For more stable training, multi-level information is extracted from the edited images and used to facilitate the learning of the generator. Experimental results show that Control4D surpasses previous approaches and achieves more photo-realistic and consistent 4D editing performances. The link to our project website is https://control4darxiv.github.io.
PDF22December 15, 2024