Diffusion en tant que shader : Diffusion vidéo 3D-aware pour un contrôle polyvalent de la génération vidéo
Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control
January 7, 2025
Auteurs: Zekai Gu, Rui Yan, Jiahao Lu, Peng Li, Zhiyang Dou, Chenyang Si, Zhen Dong, Qifeng Liu, Cheng Lin, Ziwei Liu, Wenping Wang, Yuan Liu
cs.AI
Résumé
Les modèles de diffusion ont démontré des performances impressionnantes dans la génération de vidéos de haute qualité à partir de descriptions textuelles ou d'images. Cependant, un contrôle précis du processus de génération de vidéos, tel que la manipulation de la caméra ou l'édition du contenu, reste un défi majeur. Les méthodes existantes pour la génération de vidéos contrôlées sont généralement limitées à un seul type de contrôle, manquant de la flexibilité nécessaire pour répondre à des demandes de contrôle diverses. Dans cet article, nous introduisons Diffusion as Shader (DaS), une approche novatrice qui prend en charge plusieurs tâches de contrôle vidéo au sein d'une architecture unifiée. Notre insight clé est que pour obtenir un contrôle polyvalent des vidéos, il est nécessaire d'exploiter des signaux de contrôle 3D, car les vidéos sont fondamentalement des rendus 2D de contenus 3D dynamiques. Contrairement aux méthodes précédentes limitées à des signaux de contrôle 2D, DaS exploite des vidéos de suivi 3D en tant qu'entrées de contrôle, rendant le processus de diffusion vidéo intrinsèquement conscient de la 3D. Cette innovation permet à DaS d'atteindre une large gamme de contrôles vidéo en manipulant simplement les vidéos de suivi 3D. Un autre avantage de l'utilisation de vidéos de suivi 3D est leur capacité à relier efficacement les images, améliorant significativement la cohérence temporelle des vidéos générées. Avec seulement 3 jours de fine-tuning sur 8 GPU H800 en utilisant moins de 10 000 vidéos, DaS démontre de solides capacités de contrôle dans diverses tâches, notamment la génération de vidéos à partir de maillages, le contrôle de la caméra, le transfert de mouvement et la manipulation d'objets.
English
Diffusion models have demonstrated impressive performance in generating
high-quality videos from text prompts or images. However, precise control over
the video generation process, such as camera manipulation or content editing,
remains a significant challenge. Existing methods for controlled video
generation are typically limited to a single control type, lacking the
flexibility to handle diverse control demands. In this paper, we introduce
Diffusion as Shader (DaS), a novel approach that supports multiple video
control tasks within a unified architecture. Our key insight is that achieving
versatile video control necessitates leveraging 3D control signals, as videos
are fundamentally 2D renderings of dynamic 3D content. Unlike prior methods
limited to 2D control signals, DaS leverages 3D tracking videos as control
inputs, making the video diffusion process inherently 3D-aware. This innovation
allows DaS to achieve a wide range of video controls by simply manipulating the
3D tracking videos. A further advantage of using 3D tracking videos is their
ability to effectively link frames, significantly enhancing the temporal
consistency of the generated videos. With just 3 days of fine-tuning on 8 H800
GPUs using less than 10k videos, DaS demonstrates strong control capabilities
across diverse tasks, including mesh-to-video generation, camera control,
motion transfer, and object manipulation.Summary
AI-Generated Summary