ChatPaper.aiChatPaper

ReCapture: Generative Videokamera-Steuerungen für benutzerbereitgestellte Videos mittels Maskierter Video-Feinabstimmung

ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning

November 7, 2024
papers.authors: David Junhao Zhang, Roni Paiss, Shiran Zada, Nikhil Karnad, David E. Jacobs, Yael Pritch, Inbar Mosseri, Mike Zheng Shou, Neal Wadhwa, Nataniel Ruiz
cs.AI

papers.abstract

Kürzlich haben Durchbrüche in der Videomodellierung die Erzeugung kontrollierbarer Kameratrajektorien in generierten Videos ermöglicht. Diese Methoden können jedoch nicht direkt auf benutzerbereitgestellte Videos angewendet werden, die nicht von einem Videomodell erzeugt wurden. In diesem Artikel präsentieren wir ReCapture, eine Methode zur Erzeugung neuer Videos mit neuartigen Kameratrajektorien aus einem einzigen benutzerbereitgestellten Video. Unsere Methode ermöglicht es, das Referenzvideo mit all seinen bestehenden Szenenbewegungen aus völlig unterschiedlichen Blickwinkeln und mit kinematografischer Kamerabewegung neu zu generieren. Bemerkenswerterweise können wir mit unserer Methode auch Teile der Szene plausibel rekonstruieren, die im Referenzvideo nicht sichtbar waren. Unsere Methode funktioniert, indem (1) ein verrauschtes Ankervideo mit einer neuen Kameratrajektorie mithilfe von Multiview-Diffusionsmodellen oder tiefenbasiertem Point-Cloud-Rendering erzeugt wird und dann (2) das Ankervideo mithilfe unserer vorgeschlagenen Masked-Video-Fine-Tuning-Technik in ein sauberes und zeitlich konsistentes Video mit neuem Blickwinkel regeneriert wird.
English
Recently, breakthroughs in video modeling have allowed for controllable camera trajectories in generated videos. However, these methods cannot be directly applied to user-provided videos that are not generated by a video model. In this paper, we present ReCapture, a method for generating new videos with novel camera trajectories from a single user-provided video. Our method allows us to re-generate the reference video, with all its existing scene motion, from vastly different angles and with cinematic camera motion. Notably, using our method we can also plausibly hallucinate parts of the scene that were not observable in the reference video. Our method works by (1) generating a noisy anchor video with a new camera trajectory using multiview diffusion models or depth-based point cloud rendering and then (2) regenerating the anchor video into a clean and temporally consistent reangled video using our proposed masked video fine-tuning technique.
PDF715November 13, 2024