ReCapture: Controles de cámara generativos para videos proporcionados por el usuario mediante ajuste fino de video enmascarado
ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning
November 7, 2024
Autores: David Junhao Zhang, Roni Paiss, Shiran Zada, Nikhil Karnad, David E. Jacobs, Yael Pritch, Inbar Mosseri, Mike Zheng Shou, Neal Wadhwa, Nataniel Ruiz
cs.AI
Resumen
Recientemente, los avances en el modelado de video han permitido trayectorias de cámara controlables en videos generados. Sin embargo, estos métodos no pueden aplicarse directamente a videos proporcionados por el usuario que no han sido generados por un modelo de video. En este artículo, presentamos ReCapture, un método para generar nuevos videos con trayectorias de cámara novedosas a partir de un único video proporcionado por el usuario. Nuestro método nos permite regenerar el video de referencia, con todo su movimiento de escena existente, desde ángulos muy diferentes y con movimiento cinematográfico de cámara. Cabe destacar que, utilizando nuestro método, también podemos alucinar de manera plausible partes de la escena que no eran observables en el video de referencia. Nuestro método funciona (1) generando un video ancla ruidoso con una nueva trayectoria de cámara utilizando modelos de difusión multivista o renderizado de nubes de puntos basado en profundidad, y luego (2) regenerando el video ancla en un video reangulado limpio y temporalmente consistente utilizando nuestra técnica propuesta de ajuste fino de video enmascarado.
English
Recently, breakthroughs in video modeling have allowed for controllable
camera trajectories in generated videos. However, these methods cannot be
directly applied to user-provided videos that are not generated by a video
model. In this paper, we present ReCapture, a method for generating new videos
with novel camera trajectories from a single user-provided video. Our method
allows us to re-generate the reference video, with all its existing scene
motion, from vastly different angles and with cinematic camera motion. Notably,
using our method we can also plausibly hallucinate parts of the scene that were
not observable in the reference video. Our method works by (1) generating a
noisy anchor video with a new camera trajectory using multiview diffusion
models or depth-based point cloud rendering and then (2) regenerating the
anchor video into a clean and temporally consistent reangled video using our
proposed masked video fine-tuning technique.