Diffusie als Shader: 3D-bewuste videodiffusie voor veelzijdige videoproductiecontrole
Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control
January 7, 2025
Auteurs: Zekai Gu, Rui Yan, Jiahao Lu, Peng Li, Zhiyang Dou, Chenyang Si, Zhen Dong, Qifeng Liu, Cheng Lin, Ziwei Liu, Wenping Wang, Yuan Liu
cs.AI
Samenvatting
Diffusiemodellen hebben indrukwekkende prestaties aangetoond bij het genereren van hoogwaardige video's op basis van tekstprompts of afbeeldingen. Echter, precieze controle over het videogeneratieproces, zoals camerabewerking of inhoudsbewerking, blijft een aanzienlijke uitdaging. Bestaande methoden voor gecontroleerde videogeneratie zijn doorgaans beperkt tot een enkel type controle, waardoor ze niet flexibel genoeg zijn om diverse controle-eisen aan te kunnen. In dit artikel introduceren we Diffusie als Shader (DaS), een nieuw benadering die meerdere videobesturingstaken ondersteunt binnen een geünificeerde architectuur. Ons belangrijkste inzicht is dat het bereiken van veelzijdige videobesturing vereist dat er gebruik wordt gemaakt van 3D-besturingsignalen, aangezien video's in de kern 2D-weergaven zijn van dynamische 3D-inhoud. In tegenstelling tot eerdere methoden die beperkt zijn tot 2D-besturingsignalen, maakt DaS gebruik van 3D-trackingvideo's als besturingsinvoer, waardoor het videodiffusieproces inherent 3D-bewust is. Deze innovatie stelt DaS in staat om een breed scala aan videobesturingen te bereiken door eenvoudigweg de 3D-trackingvideo's te manipuleren. Een bijkomend voordeel van het gebruik van 3D-trackingvideo's is hun vermogen om frames effectief te verbinden, waardoor de temporele consistentie van de gegenereerde video's aanzienlijk wordt verbeterd. Met slechts 3 dagen fijntuning op 8 H800 GPU's met minder dan 10k video's, toont DaS sterke besturingsmogelijkheden aan over diverse taken, waaronder mesh-naar-video-generatie, camerabesturing, bewegingsoverdracht en objectmanipulatie.
English
Diffusion models have demonstrated impressive performance in generating
high-quality videos from text prompts or images. However, precise control over
the video generation process, such as camera manipulation or content editing,
remains a significant challenge. Existing methods for controlled video
generation are typically limited to a single control type, lacking the
flexibility to handle diverse control demands. In this paper, we introduce
Diffusion as Shader (DaS), a novel approach that supports multiple video
control tasks within a unified architecture. Our key insight is that achieving
versatile video control necessitates leveraging 3D control signals, as videos
are fundamentally 2D renderings of dynamic 3D content. Unlike prior methods
limited to 2D control signals, DaS leverages 3D tracking videos as control
inputs, making the video diffusion process inherently 3D-aware. This innovation
allows DaS to achieve a wide range of video controls by simply manipulating the
3D tracking videos. A further advantage of using 3D tracking videos is their
ability to effectively link frames, significantly enhancing the temporal
consistency of the generated videos. With just 3 days of fine-tuning on 8 H800
GPUs using less than 10k videos, DaS demonstrates strong control capabilities
across diverse tasks, including mesh-to-video generation, camera control,
motion transfer, and object manipulation.Summary
AI-Generated Summary