Trainingsvrije camerabesturing voor videogeneratie
Training-free Camera Control for Video Generation
June 14, 2024
Auteurs: Chen Hou, Guoqiang Wei, Yan Zeng, Zhibo Chen
cs.AI
Samenvatting
We stellen een trainingsvrije en robuuste oplossing voor om camerabewegingscontrole te bieden voor kant-en-klare videodiffusiemodellen. In tegenstelling tot eerder werk vereist onze methode geen gesuperviseerde finetuning op datasets met camerabewegingsannotaties of zelfgesuperviseerde training via data-augmentatie. In plaats daarvan kan deze direct worden gebruikt met de meeste vooraf getrainde videodiffusiemodellen en camerabestuurbare video's genereren met een enkele afbeelding of tekstprompt als invoer. De inspiratie voor ons werk komt voort uit de lay-outprior die tussenliggende latenties hebben ten opzichte van gegenereerde resultaten, waardoor het herschikken van ruisachtige pixels in deze latenties ook de uitvoerinhoud zal herverdelen. Aangezien camerabeweging ook kan worden gezien als een vorm van pixelherschikking veroorzaakt door perspectiefverandering, kunnen video's worden gereorganiseerd volgens specifieke camerabewegingen als hun ruisachtige latenties dienovereenkomstig veranderen. Op basis hiervan stellen we onze methode CamTrol voor, die robuuste camerabesturing mogelijk maakt voor videodiffusiemodellen. Dit wordt bereikt via een tweestapsproces. Eerst modelleren we de herschikking van de afbeeldingslay-out door expliciete camerabeweging in de 3D-puntenwolkruimte. Vervolgens genereren we video's met camerabeweging door gebruik te maken van de lay-outprior van ruisachtige latenties gevormd door een reeks herschikte afbeeldingen. Uitgebreide experimenten hebben de robuustheid van onze methode aangetoond bij het beheersen van camerabewegingen in gegenereerde video's. Bovendien laten we zien dat onze methode indrukwekkende resultaten kan produceren bij het genereren van 3D-rotatievideo's met dynamische inhoud. Projectpagina op https://lifedecoder.github.io/CamTrol/.
English
We propose a training-free and robust solution to offer camera movement
control for off-the-shelf video diffusion models. Unlike previous work, our
method does not require any supervised finetuning on camera-annotated datasets
or self-supervised training via data augmentation. Instead, it can be plugged
and played with most pretrained video diffusion models and generate camera
controllable videos with a single image or text prompt as input. The
inspiration of our work comes from the layout prior that intermediate latents
hold towards generated results, thus rearranging noisy pixels in them will make
output content reallocated as well. As camera move could also be seen as a kind
of pixel rearrangement caused by perspective change, videos could be
reorganized following specific camera motion if their noisy latents change
accordingly. Established on this, we propose our method CamTrol, which enables
robust camera control for video diffusion models. It is achieved by a two-stage
process. First, we model image layout rearrangement through explicit camera
movement in 3D point cloud space. Second, we generate videos with camera motion
using layout prior of noisy latents formed by a series of rearranged images.
Extensive experiments have demonstrated the robustness our method holds in
controlling camera motion of generated videos. Furthermore, we show that our
method can produce impressive results in generating 3D rotation videos with
dynamic content. Project page at https://lifedecoder.github.io/CamTrol/.