Campo de Variação Gaussiana para Difusão de Síntese de Vídeo para 4D de Alta Fidelidade
Gaussian Variation Field Diffusion for High-fidelity Video-to-4D Synthesis
July 31, 2025
Autores: Bowen Zhang, Sicheng Xu, Chuxin Wang, Jiaolong Yang, Feng Zhao, Dong Chen, Baining Guo
cs.AI
Resumo
Neste artigo, apresentamos uma nova estrutura para geração de vídeo-para-4D que cria conteúdo 3D dinâmico de alta qualidade a partir de entradas de vídeo único. A modelagem direta de difusão 4D é extremamente desafiadora devido ao custo elevado de construção de dados e à natureza de alta dimensionalidade da representação conjunta de forma 3D, aparência e movimento. Abordamos esses desafios introduzindo um VAE de Campo de Variação Direct 4DMesh-to-GS que codifica diretamente Gaussian Splats (GS) canônicos e suas variações temporais a partir de dados de animação 3D, sem ajuste por instância, e comprime animações de alta dimensionalidade em um espaço latente compacto. Com base nessa representação eficiente, treinamos um modelo de difusão de Campo de Variação Gaussiana com Transformer de Difusão temporalmente consciente, condicionado a vídeos de entrada e GS canônicos. Treinado em objetos 3D animáveis cuidadosamente selecionados do conjunto de dados Objaverse, nosso modelo demonstra qualidade de geração superior em comparação com métodos existentes. Ele também exibe uma generalização notável para entradas de vídeo do mundo real, apesar de ter sido treinado exclusivamente em dados sintéticos, abrindo caminho para a geração de conteúdo 3D animado de alta qualidade. Página do projeto: https://gvfdiffusion.github.io/.
English
In this paper, we present a novel framework for video-to-4D generation that
creates high-quality dynamic 3D content from single video inputs. Direct 4D
diffusion modeling is extremely challenging due to costly data construction and
the high-dimensional nature of jointly representing 3D shape, appearance, and
motion. We address these challenges by introducing a Direct 4DMesh-to-GS
Variation Field VAE that directly encodes canonical Gaussian Splats (GS) and
their temporal variations from 3D animation data without per-instance fitting,
and compresses high-dimensional animations into a compact latent space.
Building upon this efficient representation, we train a Gaussian Variation
Field diffusion model with temporal-aware Diffusion Transformer conditioned on
input videos and canonical GS. Trained on carefully-curated animatable 3D
objects from the Objaverse dataset, our model demonstrates superior generation
quality compared to existing methods. It also exhibits remarkable
generalization to in-the-wild video inputs despite being trained exclusively on
synthetic data, paving the way for generating high-quality animated 3D content.
Project page: https://gvfdiffusion.github.io/.