ChatPaper.aiChatPaper

Control4D: Dynamische Portretbewerking door het Leren van 4D GAN uit een 2D Diffusie-gebaseerde Bewerker

Control4D: Dynamic Portrait Editing by Learning 4D GAN from 2D Diffusion-based Editor

May 31, 2023
Auteurs: Ruizhi Shao, Jingxiang Sun, Cheng Peng, Zerong Zheng, Boyao Zhou, Hongwen Zhang, Yebin Liu
cs.AI

Samenvatting

De afgelopen jaren hebben aanzienlijke vooruitgang geboekt bij het bewerken van afbeeldingen met tekstinstructies. Wanneer deze editors worden toegepast op het bewerken van dynamische scènes, blijkt de nieuwe scène vaak tijdelijk inconsistent te zijn vanwege het frame-voor-frame karakter van deze 2D-editors. Om dit probleem aan te pakken, stellen we Control4D voor, een nieuwe benadering voor hoogwaardige en temporeel consistente 4D-portretbewerking. Control4D is gebaseerd op een efficiënte 4D-representatie met een 2D-diffusiegebaseerde editor. In plaats van directe supervisie van de editor te gebruiken, leert onze methode een 4D GAN ervan en vermijdt zo de inconsistente supervisiesignalen. Specifiek gebruiken we een discriminator om de generatiedistributie te leren op basis van de bewerkte afbeeldingen en vervolgens de generator bij te werken met de discriminationsignalen. Voor een stabielere training wordt informatie op meerdere niveaus geëxtraheerd uit de bewerkte afbeeldingen en gebruikt om het leren van de generator te vergemakkelijken. Experimentele resultaten tonen aan dat Control4D eerdere benaderingen overtreft en meer fotorealistische en consistente 4D-bewerkingsprestaties bereikt. De link naar onze projectwebsite is https://control4darxiv.github.io.
English
Recent years have witnessed considerable achievements in editing images with text instructions. When applying these editors to dynamic scene editing, the new-style scene tends to be temporally inconsistent due to the frame-by-frame nature of these 2D editors. To tackle this issue, we propose Control4D, a novel approach for high-fidelity and temporally consistent 4D portrait editing. Control4D is built upon an efficient 4D representation with a 2D diffusion-based editor. Instead of using direct supervisions from the editor, our method learns a 4D GAN from it and avoids the inconsistent supervision signals. Specifically, we employ a discriminator to learn the generation distribution based on the edited images and then update the generator with the discrimination signals. For more stable training, multi-level information is extracted from the edited images and used to facilitate the learning of the generator. Experimental results show that Control4D surpasses previous approaches and achieves more photo-realistic and consistent 4D editing performances. The link to our project website is https://control4darxiv.github.io.
PDF22December 15, 2024