Diffusion en tant que shader : Diffusion vidéo 3D-aware pour un contrôle polyvalent de la génération vidéo

papers.abstract

Les modèles de diffusion ont démontré des performances impressionnantes dans la génération de vidéos de haute qualité à partir de descriptions textuelles ou d'images. Cependant, un contrôle précis du processus de génération de vidéos, tel que la manipulation de la caméra ou l'édition du contenu, reste un défi majeur. Les méthodes existantes pour la génération de vidéos contrôlées sont généralement limitées à un seul type de contrôle, manquant de la flexibilité nécessaire pour répondre à des demandes de contrôle diverses. Dans cet article, nous introduisons Diffusion as Shader (DaS), une approche novatrice qui prend en charge plusieurs tâches de contrôle vidéo au sein d'une architecture unifiée. Notre insight clé est que pour obtenir un contrôle polyvalent des vidéos, il est nécessaire d'exploiter des signaux de contrôle 3D, car les vidéos sont fondamentalement des rendus 2D de contenus 3D dynamiques. Contrairement aux méthodes précédentes limitées à des signaux de contrôle 2D, DaS exploite des vidéos de suivi 3D en tant qu'entrées de contrôle, rendant le processus de diffusion vidéo intrinsèquement conscient de la 3D. Cette innovation permet à DaS d'atteindre une large gamme de contrôles vidéo en manipulant simplement les vidéos de suivi 3D. Un autre avantage de l'utilisation de vidéos de suivi 3D est leur capacité à relier efficacement les images, améliorant significativement la cohérence temporelle des vidéos générées. Avec seulement 3 jours de fine-tuning sur 8 GPU H800 en utilisant moins de 10 000 vidéos, DaS démontre de solides capacités de contrôle dans diverses tâches, notamment la génération de vidéos à partir de maillages, le contrôle de la caméra, le transfert de mouvement et la manipulation d'objets.

English

Diffusion models have demonstrated impressive performance in generating high-quality videos from text prompts or images. However, precise control over the video generation process, such as camera manipulation or content editing, remains a significant challenge. Existing methods for controlled video generation are typically limited to a single control type, lacking the flexibility to handle diverse control demands. In this paper, we introduce Diffusion as Shader (DaS), a novel approach that supports multiple video control tasks within a unified architecture. Our key insight is that achieving versatile video control necessitates leveraging 3D control signals, as videos are fundamentally 2D renderings of dynamic 3D content. Unlike prior methods limited to 2D control signals, DaS leverages 3D tracking videos as control inputs, making the video diffusion process inherently 3D-aware. This innovation allows DaS to achieve a wide range of video controls by simply manipulating the 3D tracking videos. A further advantage of using 3D tracking videos is their ability to effectively link frames, significantly enhancing the temporal consistency of the generated videos. With just 3 days of fine-tuning on 8 H800 GPUs using less than 10k videos, DaS demonstrates strong control capabilities across diverse tasks, including mesh-to-video generation, camera control, motion transfer, and object manipulation.

Diffusion en tant que shader : Diffusion vidéo 3D-aware pour un contrôle polyvalent de la génération vidéo

Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control

papers.abstract

Support