Zero4D: Бестренировочная генерация 4D-видео из одного видео с использованием готовой модели диффузии видео
Zero4D: Training-Free 4D Video Generation From Single Video Using Off-the-Shelf Video Diffusion Model
March 28, 2025
Авторы: Jangho Park, Taesung Kwon, Jong Chul Ye
cs.AI
Аннотация
В последнее время генерация многовидовых или 4D-видео стала важной темой исследований. Однако современные подходы к созданию 4D-контента по-прежнему сталкиваются с фундаментальными ограничениями, поскольку они в основном полагаются на использование нескольких моделей диффузии видео с дополнительным обучением или на ресурсоемкое обучение полной 4D-модели диффузии при ограниченном количестве реальных 4D-данных и высоких вычислительных затратах. Для решения этих проблем мы предлагаем первый метод генерации 4D-видео, не требующий обучения, который использует готовые модели диффузии видео для создания многовидовых видео из одного входного видео. Наш подход состоит из двух ключевых шагов: (1) Назначая граничные кадры в пространственно-временной сетке выборки в качестве ключевых кадров, мы сначала синтезируем их с помощью модели диффузии видео, используя метод деформации на основе глубины для обеспечения согласованности. Этот подход гарантирует структурную согласованность между сгенерированными кадрами, сохраняя пространственную и временную связность. (2) Затем мы интерполируем оставшиеся кадры с помощью модели диффузии видео, создавая полностью заполненную и временно согласованную сетку выборки, сохраняя при этом пространственную и временную согласованность. Таким образом, мы расширяем одно видео в многовидовое видео вдоль новых траекторий камеры, сохраняя пространственно-временную согласованность. Наш метод не требует обучения и полностью использует готовую модель диффузии видео, предлагая практичное и эффективное решение для генерации многовидовых видео.
English
Recently, multi-view or 4D video generation has emerged as a significant
research topic. Nonetheless, recent approaches to 4D generation still struggle
with fundamental limitations, as they primarily rely on harnessing multiple
video diffusion models with additional training or compute-intensive training
of a full 4D diffusion model with limited real-world 4D data and large
computational costs. To address these challenges, here we propose the first
training-free 4D video generation method that leverages the off-the-shelf video
diffusion models to generate multi-view videos from a single input video. Our
approach consists of two key steps: (1) By designating the edge frames in the
spatio-temporal sampling grid as key frames, we first synthesize them using a
video diffusion model, leveraging a depth-based warping technique for guidance.
This approach ensures structural consistency across the generated frames,
preserving spatial and temporal coherence. (2) We then interpolate the
remaining frames using a video diffusion model, constructing a fully populated
and temporally coherent sampling grid while preserving spatial and temporal
consistency. Through this approach, we extend a single video into a multi-view
video along novel camera trajectories while maintaining spatio-temporal
consistency. Our method is training-free and fully utilizes an off-the-shelf
video diffusion model, offering a practical and effective solution for
multi-view video generation.Summary
AI-Generated Summary