Control de cámara sin entrenamiento para la generación de videos

Resumen

Proponemos una solución robusta y sin necesidad de entrenamiento para ofrecer control de movimiento de cámara en modelos de difusión de video preentrenados. A diferencia de trabajos anteriores, nuestro método no requiere ajustes supervisados en conjuntos de datos anotados con información de cámara ni entrenamiento autosupervisado mediante aumento de datos. En su lugar, puede integrarse y utilizarse directamente con la mayoría de los modelos de difusión de video preentrenados, generando videos con control de cámara utilizando una sola imagen o un texto como entrada. La inspiración de nuestro trabajo proviene del conocimiento previo sobre la disposición que mantienen los latentes intermedios hacia los resultados generados, de modo que reorganizar los píxeles ruidosos en ellos también reubicará el contenido de salida. Dado que el movimiento de cámara puede verse como una forma de reordenamiento de píxeles causado por un cambio de perspectiva, los videos podrían reorganizarse siguiendo un movimiento de cámara específico si sus latentes ruidosos cambian en consecuencia. Basándonos en esto, proponemos nuestro método CamTrol, que permite un control robusto de la cámara en modelos de difusión de video. Esto se logra mediante un proceso de dos etapas. Primero, modelamos la reorganización de la disposición de la imagen a través de un movimiento explícito de cámara en el espacio de nubes de puntos 3D. Segundo, generamos videos con movimiento de cámara utilizando el conocimiento previo de la disposición de los latentes ruidosos formados por una serie de imágenes reorganizadas. Experimentos exhaustivos han demostrado la robustez de nuestro método para controlar el movimiento de cámara en videos generados. Además, mostramos que nuestro método puede producir resultados impresionantes al generar videos de rotación 3D con contenido dinámico. Página del proyecto en https://lifedecoder.github.io/CamTrol/.

English

We propose a training-free and robust solution to offer camera movement control for off-the-shelf video diffusion models. Unlike previous work, our method does not require any supervised finetuning on camera-annotated datasets or self-supervised training via data augmentation. Instead, it can be plugged and played with most pretrained video diffusion models and generate camera controllable videos with a single image or text prompt as input. The inspiration of our work comes from the layout prior that intermediate latents hold towards generated results, thus rearranging noisy pixels in them will make output content reallocated as well. As camera move could also be seen as a kind of pixel rearrangement caused by perspective change, videos could be reorganized following specific camera motion if their noisy latents change accordingly. Established on this, we propose our method CamTrol, which enables robust camera control for video diffusion models. It is achieved by a two-stage process. First, we model image layout rearrangement through explicit camera movement in 3D point cloud space. Second, we generate videos with camera motion using layout prior of noisy latents formed by a series of rearranged images. Extensive experiments have demonstrated the robustness our method holds in controlling camera motion of generated videos. Furthermore, we show that our method can produce impressive results in generating 3D rotation videos with dynamic content. Project page at https://lifedecoder.github.io/CamTrol/.

Control de cámara sin entrenamiento para la generación de videos

Training-free Camera Control for Video Generation

Resumen

Support