ChatPaper.aiChatPaper

ReCapture: Controlli Fotografici Generativi per Video Forniti dall'Utente tramite Video Fine-Tuning Mascherato

ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning

November 7, 2024
Autori: David Junhao Zhang, Roni Paiss, Shiran Zada, Nikhil Karnad, David E. Jacobs, Yael Pritch, Inbar Mosseri, Mike Zheng Shou, Neal Wadhwa, Nataniel Ruiz
cs.AI

Abstract

Recentemente, i progressi nella modellazione video hanno consentito traiettorie di camera controllabili nei video generati. Tuttavia, questi metodi non possono essere applicati direttamente a video forniti dall'utente che non sono generati da un modello video. In questo articolo, presentiamo ReCapture, un metodo per generare nuovi video con traiettorie di camera innovative a partire da un singolo video fornito dall'utente. Il nostro metodo ci permette di rigenerare il video di riferimento, con tutto il suo movimento scenico esistente, da angolazioni radicalmente diverse e con movimenti di camera cinematografici. Significativamente, utilizzando il nostro metodo possiamo anche rappresentare in modo plausibile parti della scena che non erano osservabili nel video originale. Il nostro metodo funziona (1) generando un video di ancoraggio rumoroso con una nuova traiettoria di camera utilizzando modelli di diffusione multiview o rendering di nuvole di punti basati sulla profondità, e successivamente (2) rigenerando il video di ancoraggio in un video riangolato pulito e temporalmente coerente utilizzando la nostra tecnica proposta di fine-tuning video mascherato.
English
Recently, breakthroughs in video modeling have allowed for controllable camera trajectories in generated videos. However, these methods cannot be directly applied to user-provided videos that are not generated by a video model. In this paper, we present ReCapture, a method for generating new videos with novel camera trajectories from a single user-provided video. Our method allows us to re-generate the reference video, with all its existing scene motion, from vastly different angles and with cinematic camera motion. Notably, using our method we can also plausibly hallucinate parts of the scene that were not observable in the reference video. Our method works by (1) generating a noisy anchor video with a new camera trajectory using multiview diffusion models or depth-based point cloud rendering and then (2) regenerating the anchor video into a clean and temporally consistent reangled video using our proposed masked video fine-tuning technique.
PDF715April 1, 2026