ReCapture: Generatieve Videocamerabediening voor Gebruikersgeleverde Video's met Gemaskeerde Video Fine-Tuning
ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning
November 7, 2024
Auteurs: David Junhao Zhang, Roni Paiss, Shiran Zada, Nikhil Karnad, David E. Jacobs, Yael Pritch, Inbar Mosseri, Mike Zheng Shou, Neal Wadhwa, Nataniel Ruiz
cs.AI
Samenvatting
Recent hebben doorbraken in videomodellering het mogelijk gemaakt om bestuurbare camerabewegingen in gegenereerde video's te creëren. Deze methoden kunnen echter niet direct worden toegepast op door gebruikers aangeleverde video's die niet door een videomodel zijn gegenereerd. In dit artikel presenteren we ReCapture, een methode voor het genereren van nieuwe video's met nieuwe camerabewegingen vanuit een enkele door de gebruiker aangeleverde video. Onze methode stelt ons in staat om de referentievideo, met al zijn bestaande scènebeweging, opnieuw te genereren vanuit sterk verschillende hoeken en met cinematografische camerabeweging. Opmerkelijk is dat we met onze methode ook delen van de scène die niet zichtbaar waren in de referentievideo, op een geloofwaardige manier kunnen 'hallucineren'. Onze methode werkt door (1) eerst een ruwe ankervideo te genereren met een nieuwe camerabeweging met behulp van multiview-diffusiemodellen of op diepte gebaseerde pointcloud-rendering, en vervolgens (2) de ankervideo opnieuw te genereren tot een schone en temporeel consistente video vanuit een nieuwe hoek, met behulp van onze voorgestelde gemaskeerde video-finetuningtechniek.
English
Recently, breakthroughs in video modeling have allowed for controllable
camera trajectories in generated videos. However, these methods cannot be
directly applied to user-provided videos that are not generated by a video
model. In this paper, we present ReCapture, a method for generating new videos
with novel camera trajectories from a single user-provided video. Our method
allows us to re-generate the reference video, with all its existing scene
motion, from vastly different angles and with cinematic camera motion. Notably,
using our method we can also plausibly hallucinate parts of the scene that were
not observable in the reference video. Our method works by (1) generating a
noisy anchor video with a new camera trajectory using multiview diffusion
models or depth-based point cloud rendering and then (2) regenerating the
anchor video into a clean and temporally consistent reangled video using our
proposed masked video fine-tuning technique.