ChatPaper.aiChatPaper

Zero4D: 사전 학습된 비디오 확산 모델을 활용한 단일 비디오 기반 학습 없이 가능한 4D 비디오 생성

Zero4D: Training-Free 4D Video Generation From Single Video Using Off-the-Shelf Video Diffusion Model

March 28, 2025
저자: Jangho Park, Taesung Kwon, Jong Chul Ye
cs.AI

초록

최근 멀티뷰 또는 4D 비디오 생성이 중요한 연구 주제로 부상하고 있습니다. 그러나 최근의 4D 생성 접근법들은 여전히 근본적인 한계에 직면해 있는데, 이는 주로 여러 비디오 확산 모델을 활용하거나 제한된 실세계 4D 데이터와 큰 계산 비용을 요구하는 완전한 4D 확산 모델의 집중적인 훈련에 의존하기 때문입니다. 이러한 문제를 해결하기 위해, 본 연구에서는 기성 비디오 확산 모델을 활용하여 단일 입력 비디오에서 멀티뷰 비디오를 생성하는 최초의 훈련이 필요 없는 4D 비디오 생성 방법을 제안합니다. 우리의 접근 방식은 두 가지 주요 단계로 구성됩니다: (1) 시공간 샘플링 그리드의 가장자리 프레임을 키 프레임으로 지정하고, 깊이 기반 워핑 기법을 활용하여 비디오 확산 모델을 사용해 이들을 먼저 합성합니다. 이 방법은 생성된 프레임들 간의 구조적 일관성을 보장하며, 공간적 및 시간적 일관성을 유지합니다. (2) 그런 다음 비디오 확산 모델을 사용하여 나머지 프레임들을 보간함으로써, 공간적 및 시간적 일관성을 유지하면서 완전히 채워진 시간적 일관성을 가진 샘플링 그리드를 구성합니다. 이를 통해 단일 비디오를 새로운 카메라 궤적을 따라 멀티뷰 비디오로 확장하면서 시공간적 일관성을 유지합니다. 우리의 방법은 훈련이 필요 없으며 기성 비디오 확산 모델을 완전히 활용하여, 멀티뷰 비디오 생성을 위한 실용적이고 효과적인 해결책을 제공합니다.
English
Recently, multi-view or 4D video generation has emerged as a significant research topic. Nonetheless, recent approaches to 4D generation still struggle with fundamental limitations, as they primarily rely on harnessing multiple video diffusion models with additional training or compute-intensive training of a full 4D diffusion model with limited real-world 4D data and large computational costs. To address these challenges, here we propose the first training-free 4D video generation method that leverages the off-the-shelf video diffusion models to generate multi-view videos from a single input video. Our approach consists of two key steps: (1) By designating the edge frames in the spatio-temporal sampling grid as key frames, we first synthesize them using a video diffusion model, leveraging a depth-based warping technique for guidance. This approach ensures structural consistency across the generated frames, preserving spatial and temporal coherence. (2) We then interpolate the remaining frames using a video diffusion model, constructing a fully populated and temporally coherent sampling grid while preserving spatial and temporal consistency. Through this approach, we extend a single video into a multi-view video along novel camera trajectories while maintaining spatio-temporal consistency. Our method is training-free and fully utilizes an off-the-shelf video diffusion model, offering a practical and effective solution for multi-view video generation.

Summary

AI-Generated Summary

PDF182April 1, 2025