Diffusie als Shader: 3D-bewuste videodiffusie voor veelzijdige videoproductiecontrole

Samenvatting

Diffusiemodellen hebben indrukwekkende prestaties aangetoond bij het genereren van hoogwaardige video's op basis van tekstprompts of afbeeldingen. Echter, precieze controle over het videogeneratieproces, zoals camerabewerking of inhoudsbewerking, blijft een aanzienlijke uitdaging. Bestaande methoden voor gecontroleerde videogeneratie zijn doorgaans beperkt tot een enkel type controle, waardoor ze niet flexibel genoeg zijn om diverse controle-eisen aan te kunnen. In dit artikel introduceren we Diffusie als Shader (DaS), een nieuw benadering die meerdere videobesturingstaken ondersteunt binnen een geünificeerde architectuur. Ons belangrijkste inzicht is dat het bereiken van veelzijdige videobesturing vereist dat er gebruik wordt gemaakt van 3D-besturingsignalen, aangezien video's in de kern 2D-weergaven zijn van dynamische 3D-inhoud. In tegenstelling tot eerdere methoden die beperkt zijn tot 2D-besturingsignalen, maakt DaS gebruik van 3D-trackingvideo's als besturingsinvoer, waardoor het videodiffusieproces inherent 3D-bewust is. Deze innovatie stelt DaS in staat om een breed scala aan videobesturingen te bereiken door eenvoudigweg de 3D-trackingvideo's te manipuleren. Een bijkomend voordeel van het gebruik van 3D-trackingvideo's is hun vermogen om frames effectief te verbinden, waardoor de temporele consistentie van de gegenereerde video's aanzienlijk wordt verbeterd. Met slechts 3 dagen fijntuning op 8 H800 GPU's met minder dan 10k video's, toont DaS sterke besturingsmogelijkheden aan over diverse taken, waaronder mesh-naar-video-generatie, camerabesturing, bewegingsoverdracht en objectmanipulatie.

English

Diffusion models have demonstrated impressive performance in generating high-quality videos from text prompts or images. However, precise control over the video generation process, such as camera manipulation or content editing, remains a significant challenge. Existing methods for controlled video generation are typically limited to a single control type, lacking the flexibility to handle diverse control demands. In this paper, we introduce Diffusion as Shader (DaS), a novel approach that supports multiple video control tasks within a unified architecture. Our key insight is that achieving versatile video control necessitates leveraging 3D control signals, as videos are fundamentally 2D renderings of dynamic 3D content. Unlike prior methods limited to 2D control signals, DaS leverages 3D tracking videos as control inputs, making the video diffusion process inherently 3D-aware. This innovation allows DaS to achieve a wide range of video controls by simply manipulating the 3D tracking videos. A further advantage of using 3D tracking videos is their ability to effectively link frames, significantly enhancing the temporal consistency of the generated videos. With just 3 days of fine-tuning on 8 H800 GPUs using less than 10k videos, DaS demonstrates strong control capabilities across diverse tasks, including mesh-to-video generation, camera control, motion transfer, and object manipulation.

Diffusie als Shader: 3D-bewuste videodiffusie voor veelzijdige videoproductiecontrole

Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control

Samenvatting

Summary

Support

Support