Rendu génératif : Génération de vidéo contrôlée guidée par 4D avec des modèles de diffusion 2D
Generative Rendering: Controllable 4D-Guided Video Generation with 2D Diffusion Models
December 3, 2023
Auteurs: Shengqu Cai, Duygu Ceylan, Matheus Gadelha, Chun-Hao Paul Huang, Tuanfeng Yang Wang, Gordon Wetzstein
cs.AI
Résumé
Les outils traditionnels de création de contenu 3D permettent aux utilisateurs de donner vie à leur imagination en leur offrant un contrôle direct sur la géométrie, l'apparence, le mouvement et la trajectoire de la caméra d'une scène. Cependant, la création de vidéos générées par ordinateur reste un processus manuel fastidieux, qui peut être automatisé grâce aux modèles émergents de diffusion texte-à-vidéo. Malgré leur grand potentiel, les modèles de diffusion vidéo sont difficiles à contrôler, limitant ainsi la capacité des utilisateurs à exprimer leur créativité plutôt que de l'amplifier. Pour relever ce défi, nous proposons une nouvelle approche qui combine la contrôlabilité des maillages 3D dynamiques avec l'expressivité et la capacité d'édition des modèles de diffusion émergents. À cette fin, notre méthode prend en entrée un maillage animé et rendu en basse fidélité, puis injecte les informations de correspondance issues du maillage dynamique à différentes étapes d'un modèle pré-entraîné de génération d'images à partir de texte, afin de produire des images de haute qualité et temporellement cohérentes. Nous illustrons notre approche à travers divers exemples où le mouvement peut être obtenu en animant des éléments articulés ou en modifiant la trajectoire de la caméra.
English
Traditional 3D content creation tools empower users to bring their
imagination to life by giving them direct control over a scene's geometry,
appearance, motion, and camera path. Creating computer-generated videos,
however, is a tedious manual process, which can be automated by emerging
text-to-video diffusion models. Despite great promise, video diffusion models
are difficult to control, hindering a user to apply their own creativity rather
than amplifying it. To address this challenge, we present a novel approach that
combines the controllability of dynamic 3D meshes with the expressivity and
editability of emerging diffusion models. For this purpose, our approach takes
an animated, low-fidelity rendered mesh as input and injects the ground truth
correspondence information obtained from the dynamic mesh into various stages
of a pre-trained text-to-image generation model to output high-quality and
temporally consistent frames. We demonstrate our approach on various examples
where motion can be obtained by animating rigged assets or changing the camera
path.