Control de cámara sin entrenamiento para la generación de videos
Training-free Camera Control for Video Generation
June 14, 2024
Autores: Chen Hou, Guoqiang Wei, Yan Zeng, Zhibo Chen
cs.AI
Resumen
Proponemos una solución robusta y sin necesidad de entrenamiento para ofrecer control de movimiento de cámara en modelos de difusión de video preentrenados. A diferencia de trabajos anteriores, nuestro método no requiere ajustes supervisados en conjuntos de datos anotados con información de cámara ni entrenamiento autosupervisado mediante aumento de datos. En su lugar, puede integrarse y utilizarse directamente con la mayoría de los modelos de difusión de video preentrenados, generando videos con control de cámara utilizando una sola imagen o un texto como entrada. La inspiración de nuestro trabajo proviene del conocimiento previo sobre la disposición que mantienen los latentes intermedios hacia los resultados generados, de modo que reorganizar los píxeles ruidosos en ellos también reubicará el contenido de salida. Dado que el movimiento de cámara puede verse como una forma de reordenamiento de píxeles causado por un cambio de perspectiva, los videos podrían reorganizarse siguiendo un movimiento de cámara específico si sus latentes ruidosos cambian en consecuencia. Basándonos en esto, proponemos nuestro método CamTrol, que permite un control robusto de la cámara en modelos de difusión de video. Esto se logra mediante un proceso de dos etapas. Primero, modelamos la reorganización de la disposición de la imagen a través de un movimiento explícito de cámara en el espacio de nubes de puntos 3D. Segundo, generamos videos con movimiento de cámara utilizando el conocimiento previo de la disposición de los latentes ruidosos formados por una serie de imágenes reorganizadas. Experimentos exhaustivos han demostrado la robustez de nuestro método para controlar el movimiento de cámara en videos generados. Además, mostramos que nuestro método puede producir resultados impresionantes al generar videos de rotación 3D con contenido dinámico. Página del proyecto en https://lifedecoder.github.io/CamTrol/.
English
We propose a training-free and robust solution to offer camera movement
control for off-the-shelf video diffusion models. Unlike previous work, our
method does not require any supervised finetuning on camera-annotated datasets
or self-supervised training via data augmentation. Instead, it can be plugged
and played with most pretrained video diffusion models and generate camera
controllable videos with a single image or text prompt as input. The
inspiration of our work comes from the layout prior that intermediate latents
hold towards generated results, thus rearranging noisy pixels in them will make
output content reallocated as well. As camera move could also be seen as a kind
of pixel rearrangement caused by perspective change, videos could be
reorganized following specific camera motion if their noisy latents change
accordingly. Established on this, we propose our method CamTrol, which enables
robust camera control for video diffusion models. It is achieved by a two-stage
process. First, we model image layout rearrangement through explicit camera
movement in 3D point cloud space. Second, we generate videos with camera motion
using layout prior of noisy latents formed by a series of rearranged images.
Extensive experiments have demonstrated the robustness our method holds in
controlling camera motion of generated videos. Furthermore, we show that our
method can produce impressive results in generating 3D rotation videos with
dynamic content. Project page at https://lifedecoder.github.io/CamTrol/.Summary
AI-Generated Summary