ReCapture: Generatieve Videocamerabediening voor Gebruikersgeleverde Video's met Gemaskeerde Video Fine-Tuning

Samenvatting

Recent hebben doorbraken in videomodellering het mogelijk gemaakt om bestuurbare camerabewegingen in gegenereerde video's te creëren. Deze methoden kunnen echter niet direct worden toegepast op door gebruikers aangeleverde video's die niet door een videomodel zijn gegenereerd. In dit artikel presenteren we ReCapture, een methode voor het genereren van nieuwe video's met nieuwe camerabewegingen vanuit een enkele door de gebruiker aangeleverde video. Onze methode stelt ons in staat om de referentievideo, met al zijn bestaande scènebeweging, opnieuw te genereren vanuit sterk verschillende hoeken en met cinematografische camerabeweging. Opmerkelijk is dat we met onze methode ook delen van de scène die niet zichtbaar waren in de referentievideo, op een geloofwaardige manier kunnen 'hallucineren'. Onze methode werkt door (1) eerst een ruwe ankervideo te genereren met een nieuwe camerabeweging met behulp van multiview-diffusiemodellen of op diepte gebaseerde pointcloud-rendering, en vervolgens (2) de ankervideo opnieuw te genereren tot een schone en temporeel consistente video vanuit een nieuwe hoek, met behulp van onze voorgestelde gemaskeerde video-finetuningtechniek.

English

Recently, breakthroughs in video modeling have allowed for controllable camera trajectories in generated videos. However, these methods cannot be directly applied to user-provided videos that are not generated by a video model. In this paper, we present ReCapture, a method for generating new videos with novel camera trajectories from a single user-provided video. Our method allows us to re-generate the reference video, with all its existing scene motion, from vastly different angles and with cinematic camera motion. Notably, using our method we can also plausibly hallucinate parts of the scene that were not observable in the reference video. Our method works by (1) generating a noisy anchor video with a new camera trajectory using multiview diffusion models or depth-based point cloud rendering and then (2) regenerating the anchor video into a clean and temporally consistent reangled video using our proposed masked video fine-tuning technique.

ReCapture: Generatieve Videocamerabediening voor Gebruikersgeleverde Video's met Gemaskeerde Video Fine-Tuning

ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning

Samenvatting

Support