ChatPaper.aiChatPaper

ReCapture: 마스크 비디오 미세 조정을 활용한 사용자 제공 비디오를 위한 생성적 비디오 카메라 제어

ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning

November 7, 2024
저자: David Junhao Zhang, Roni Paiss, Shiran Zada, Nikhil Karnad, David E. Jacobs, Yael Pritch, Inbar Mosseri, Mike Zheng Shou, Neal Wadhwa, Nataniel Ruiz
cs.AI

초록

최근 비디오 모델링 분야의 획기적인 발전으로 생성된 비디오에서 제어 가능한 카메라 궤적을 구현할 수 있게 되었다. 그러나 이러한 방법들은 비디오 모델에 의해 생성되지 않은 사용자 제공 비디오에 직접 적용할 수 없다. 본 논문에서는 단일 사용자 제공 비디오로부터 새로운 카메라 궤적을 가진 비디오를 생성하는 방법인 ReCapture를 제안한다. 우리의 방법은 참조 비디오를 기존의 모든 장면 움직임과 함께 완전히 다른 각도와 시네마틱한 카메라 움직임으로 재생성할 수 있게 한다. 특히, 이 방법을 사용하면 참조 비디오에서 관찰할 수 없었던 장면의 일부를 그럴듯하게 추정할 수도 있다. 우리의 방법은 (1) 다중 뷰 확산 모델 또는 깊이 기반 포인트 클라우드 렌더링을 사용하여 새로운 카메라 궤적을 가진 노이즈가 있는 앵커 비디오를 생성한 다음, (2) 제안된 마스크 비디오 미세 조정 기법을 사용하여 앵커 비디오를 깨끗하고 시간적으로 일관된 재각도 비디오로 재생성하는 방식으로 작동한다.
English
Recently, breakthroughs in video modeling have allowed for controllable camera trajectories in generated videos. However, these methods cannot be directly applied to user-provided videos that are not generated by a video model. In this paper, we present ReCapture, a method for generating new videos with novel camera trajectories from a single user-provided video. Our method allows us to re-generate the reference video, with all its existing scene motion, from vastly different angles and with cinematic camera motion. Notably, using our method we can also plausibly hallucinate parts of the scene that were not observable in the reference video. Our method works by (1) generating a noisy anchor video with a new camera trajectory using multiview diffusion models or depth-based point cloud rendering and then (2) regenerating the anchor video into a clean and temporally consistent reangled video using our proposed masked video fine-tuning technique.
PDF715November 13, 2024