Zero4D: Geração de Vídeo 4D Sem Treinamento a Partir de um Único Vídeo Usando Modelo de Difusão de Vídeo Pronto para Uso
Zero4D: Training-Free 4D Video Generation From Single Video Using Off-the-Shelf Video Diffusion Model
March 28, 2025
Autores: Jangho Park, Taesung Kwon, Jong Chul Ye
cs.AI
Resumo
Recentemente, a geração de vídeos multi-visão ou 4D emergiu como um tópico de pesquisa significativo. No entanto, as abordagens recentes para geração 4D ainda enfrentam limitações fundamentais, pois dependem principalmente da utilização de múltiplos modelos de difusão de vídeo com treinamento adicional ou do treinamento computacionalmente intensivo de um modelo completo de difusão 4D, que é limitado pela escassez de dados 4D do mundo real e pelos altos custos computacionais. Para enfrentar esses desafios, propomos aqui o primeiro método de geração de vídeo 4D sem treinamento, que aproveita modelos de difusão de vídeo prontos para uso para gerar vídeos multi-visão a partir de um único vídeo de entrada. Nossa abordagem consiste em duas etapas principais: (1) Ao designar os frames de borda na grade de amostragem espaço-temporal como frames-chave, primeiro os sintetizamos usando um modelo de difusão de vídeo, empregando uma técnica de deformação baseada em profundidade para orientação. Essa abordagem garante consistência estrutural entre os frames gerados, preservando a coerência espacial e temporal. (2) Em seguida, interpolamos os frames restantes usando um modelo de difusão de vídeo, construindo uma grade de amostragem totalmente preenchida e temporalmente coerente, enquanto mantemos a consistência espacial e temporal. Por meio dessa abordagem, estendemos um único vídeo em um vídeo multi-visão ao longo de novas trajetórias de câmera, mantendo a consistência espaço-temporal. Nosso método é livre de treinamento e utiliza totalmente um modelo de difusão de vídeo pronto para uso, oferecendo uma solução prática e eficaz para a geração de vídeos multi-visão.
English
Recently, multi-view or 4D video generation has emerged as a significant
research topic. Nonetheless, recent approaches to 4D generation still struggle
with fundamental limitations, as they primarily rely on harnessing multiple
video diffusion models with additional training or compute-intensive training
of a full 4D diffusion model with limited real-world 4D data and large
computational costs. To address these challenges, here we propose the first
training-free 4D video generation method that leverages the off-the-shelf video
diffusion models to generate multi-view videos from a single input video. Our
approach consists of two key steps: (1) By designating the edge frames in the
spatio-temporal sampling grid as key frames, we first synthesize them using a
video diffusion model, leveraging a depth-based warping technique for guidance.
This approach ensures structural consistency across the generated frames,
preserving spatial and temporal coherence. (2) We then interpolate the
remaining frames using a video diffusion model, constructing a fully populated
and temporally coherent sampling grid while preserving spatial and temporal
consistency. Through this approach, we extend a single video into a multi-view
video along novel camera trajectories while maintaining spatio-temporal
consistency. Our method is training-free and fully utilizes an off-the-shelf
video diffusion model, offering a practical and effective solution for
multi-view video generation.Summary
AI-Generated Summary