Trainingsvrije camerabesturing voor videogeneratie

Samenvatting

We stellen een trainingsvrije en robuuste oplossing voor om camerabewegingscontrole te bieden voor kant-en-klare videodiffusiemodellen. In tegenstelling tot eerder werk vereist onze methode geen gesuperviseerde finetuning op datasets met camerabewegingsannotaties of zelfgesuperviseerde training via data-augmentatie. In plaats daarvan kan deze direct worden gebruikt met de meeste vooraf getrainde videodiffusiemodellen en camerabestuurbare video's genereren met een enkele afbeelding of tekstprompt als invoer. De inspiratie voor ons werk komt voort uit de lay-outprior die tussenliggende latenties hebben ten opzichte van gegenereerde resultaten, waardoor het herschikken van ruisachtige pixels in deze latenties ook de uitvoerinhoud zal herverdelen. Aangezien camerabeweging ook kan worden gezien als een vorm van pixelherschikking veroorzaakt door perspectiefverandering, kunnen video's worden gereorganiseerd volgens specifieke camerabewegingen als hun ruisachtige latenties dienovereenkomstig veranderen. Op basis hiervan stellen we onze methode CamTrol voor, die robuuste camerabesturing mogelijk maakt voor videodiffusiemodellen. Dit wordt bereikt via een tweestapsproces. Eerst modelleren we de herschikking van de afbeeldingslay-out door expliciete camerabeweging in de 3D-puntenwolkruimte. Vervolgens genereren we video's met camerabeweging door gebruik te maken van de lay-outprior van ruisachtige latenties gevormd door een reeks herschikte afbeeldingen. Uitgebreide experimenten hebben de robuustheid van onze methode aangetoond bij het beheersen van camerabewegingen in gegenereerde video's. Bovendien laten we zien dat onze methode indrukwekkende resultaten kan produceren bij het genereren van 3D-rotatievideo's met dynamische inhoud. Projectpagina op https://lifedecoder.github.io/CamTrol/.

English

We propose a training-free and robust solution to offer camera movement control for off-the-shelf video diffusion models. Unlike previous work, our method does not require any supervised finetuning on camera-annotated datasets or self-supervised training via data augmentation. Instead, it can be plugged and played with most pretrained video diffusion models and generate camera controllable videos with a single image or text prompt as input. The inspiration of our work comes from the layout prior that intermediate latents hold towards generated results, thus rearranging noisy pixels in them will make output content reallocated as well. As camera move could also be seen as a kind of pixel rearrangement caused by perspective change, videos could be reorganized following specific camera motion if their noisy latents change accordingly. Established on this, we propose our method CamTrol, which enables robust camera control for video diffusion models. It is achieved by a two-stage process. First, we model image layout rearrangement through explicit camera movement in 3D point cloud space. Second, we generate videos with camera motion using layout prior of noisy latents formed by a series of rearranged images. Extensive experiments have demonstrated the robustness our method holds in controlling camera motion of generated videos. Furthermore, we show that our method can produce impressive results in generating 3D rotation videos with dynamic content. Project page at https://lifedecoder.github.io/CamTrol/.

Trainingsvrije camerabesturing voor videogeneratie

Training-free Camera Control for Video Generation

Samenvatting

Support