ReCapture : Contrôles génératifs de caméra vidéo pour des vidéos fournies par l'utilisateur grâce à un réglage fin vidéo masqué
ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning
November 7, 2024
papers.authors: David Junhao Zhang, Roni Paiss, Shiran Zada, Nikhil Karnad, David E. Jacobs, Yael Pritch, Inbar Mosseri, Mike Zheng Shou, Neal Wadhwa, Nataniel Ruiz
cs.AI
papers.abstract
Récemment, des avancées dans la modélisation vidéo ont permis de contrôler les trajectoires de caméra dans les vidéos générées. Cependant, ces méthodes ne peuvent pas être directement appliquées à des vidéos fournies par l’utilisateur qui ne sont pas générées par un modèle vidéo. Dans cet article, nous présentons ReCapture, une méthode pour générer de nouvelles vidéos avec des trajectoires de caméra innovantes à partir d’une seule vidéo fournie par l’utilisateur. Notre méthode permet de régénérer la vidéo de référence, avec tous ses mouvements de scène existants, sous des angles radicalement différents et avec des mouvements de caméra cinématographiques. De manière notable, en utilisant notre méthode, nous pouvons également halluciner de manière plausible des parties de la scène qui n’étaient pas visibles dans la vidéo de référence. Notre méthode fonctionne en (1) générant une vidéo d’ancrage bruitée avec une nouvelle trajectoire de caméra en utilisant des modèles de diffusion multivues ou le rendu de nuages de points basé sur la profondeur, puis en (2) régénérant la vidéo d’ancrage en une vidéo propre et temporellement cohérente avec un nouvel angle, grâce à notre technique proposée de fine-tuning vidéo masquée.
English
Recently, breakthroughs in video modeling have allowed for controllable
camera trajectories in generated videos. However, these methods cannot be
directly applied to user-provided videos that are not generated by a video
model. In this paper, we present ReCapture, a method for generating new videos
with novel camera trajectories from a single user-provided video. Our method
allows us to re-generate the reference video, with all its existing scene
motion, from vastly different angles and with cinematic camera motion. Notably,
using our method we can also plausibly hallucinate parts of the scene that were
not observable in the reference video. Our method works by (1) generating a
noisy anchor video with a new camera trajectory using multiview diffusion
models or depth-based point cloud rendering and then (2) regenerating the
anchor video into a clean and temporally consistent reangled video using our
proposed masked video fine-tuning technique.