ReCapture: Controles de cámara generativos para videos proporcionados por el usuario mediante ajuste fino de video enmascarado

Resumen

Recientemente, los avances en el modelado de video han permitido trayectorias de cámara controlables en videos generados. Sin embargo, estos métodos no pueden aplicarse directamente a videos proporcionados por el usuario que no han sido generados por un modelo de video. En este artículo, presentamos ReCapture, un método para generar nuevos videos con trayectorias de cámara novedosas a partir de un único video proporcionado por el usuario. Nuestro método nos permite regenerar el video de referencia, con todo su movimiento de escena existente, desde ángulos muy diferentes y con movimiento cinematográfico de cámara. Cabe destacar que, utilizando nuestro método, también podemos alucinar de manera plausible partes de la escena que no eran observables en el video de referencia. Nuestro método funciona (1) generando un video ancla ruidoso con una nueva trayectoria de cámara utilizando modelos de difusión multivista o renderizado de nubes de puntos basado en profundidad, y luego (2) regenerando el video ancla en un video reangulado limpio y temporalmente consistente utilizando nuestra técnica propuesta de ajuste fino de video enmascarado.

English

Recently, breakthroughs in video modeling have allowed for controllable camera trajectories in generated videos. However, these methods cannot be directly applied to user-provided videos that are not generated by a video model. In this paper, we present ReCapture, a method for generating new videos with novel camera trajectories from a single user-provided video. Our method allows us to re-generate the reference video, with all its existing scene motion, from vastly different angles and with cinematic camera motion. Notably, using our method we can also plausibly hallucinate parts of the scene that were not observable in the reference video. Our method works by (1) generating a noisy anchor video with a new camera trajectory using multiview diffusion models or depth-based point cloud rendering and then (2) regenerating the anchor video into a clean and temporally consistent reangled video using our proposed masked video fine-tuning technique.