ReCapture: ユーザ提供動画のための生成型ビデオカメラ制御 ―マスク付き動画ファインチューニングを用いて―
ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning
November 7, 2024
著者: David Junhao Zhang, Roni Paiss, Shiran Zada, Nikhil Karnad, David E. Jacobs, Yael Pritch, Inbar Mosseri, Mike Zheng Shou, Neal Wadhwa, Nataniel Ruiz
cs.AI
要旨
近年、ビデオモデリングにおけるブレークスルーにより、生成されたビデオにおける制御可能なカメラ軌道が実現されました。しかし、これらの手法は、ビデオモデルによって生成されていないユーザー提供のビデオに直接適用することはできません。本論文では、単一のユーザー提供ビデオから新しいカメラ軌道を持つビデオを生成する手法であるReCaptureを提案します。本手法により、参照ビデオをその既存のシーンモーションを全て保持したまま、全く異なる角度から、かつ映画的なカメラモーションで再生成することが可能です。特に、本手法を使用することで、参照ビデオでは観察できなかったシーンの一部を妥当に推測することもできます。本手法は、(1) マルチビューディフュージョンモデルまたは深度ベースの点群レンダリングを用いて新しいカメラ軌道を持つノイジーなアンカービデオを生成し、(2) 提案するマスク付きビデオファインチューニング技術を用いてアンカービデオをクリーンで時間的に一貫した再角度ビデオに再生成するというプロセスで動作します。
English
Recently, breakthroughs in video modeling have allowed for controllable
camera trajectories in generated videos. However, these methods cannot be
directly applied to user-provided videos that are not generated by a video
model. In this paper, we present ReCapture, a method for generating new videos
with novel camera trajectories from a single user-provided video. Our method
allows us to re-generate the reference video, with all its existing scene
motion, from vastly different angles and with cinematic camera motion. Notably,
using our method we can also plausibly hallucinate parts of the scene that were
not observable in the reference video. Our method works by (1) generating a
noisy anchor video with a new camera trajectory using multiview diffusion
models or depth-based point cloud rendering and then (2) regenerating the
anchor video into a clean and temporally consistent reangled video using our
proposed masked video fine-tuning technique.