Campo de Variación Gaussiana para la Difusión en la Síntesis de Video-a-4D de Alta Fidelidad
Gaussian Variation Field Diffusion for High-fidelity Video-to-4D Synthesis
July 31, 2025
Autores: Bowen Zhang, Sicheng Xu, Chuxin Wang, Jiaolong Yang, Feng Zhao, Dong Chen, Baining Guo
cs.AI
Resumen
En este artículo, presentamos un marco novedoso para la generación de video-a-4D que crea contenido dinámico 3D de alta calidad a partir de entradas de video únicas. El modelado directo de difusión 4D es extremadamente desafiante debido al costoso proceso de construcción de datos y a la naturaleza de alta dimensión de representar conjuntamente la forma 3D, la apariencia y el movimiento. Abordamos estos desafíos introduciendo un VAE de Campo de Variación Directo 4DMesh-a-GS que codifica directamente Gaussian Splats (GS) canónicos y sus variaciones temporales a partir de datos de animación 3D sin ajuste por instancia, y comprime animaciones de alta dimensión en un espacio latente compacto. Basándonos en esta representación eficiente, entrenamos un modelo de difusión de Campo de Variación Gaussiana con un Transformer de Difusión consciente del tiempo, condicionado por videos de entrada y GS canónicos. Entrenado en objetos 3D animables cuidadosamente seleccionados del conjunto de datos Objaverse, nuestro modelo demuestra una calidad de generación superior en comparación con los métodos existentes. También exhibe una generalización notable para entradas de video en entornos no controlados, a pesar de haber sido entrenado exclusivamente con datos sintéticos, allanando el camino para la generación de contenido 3D animado de alta calidad. Página del proyecto: https://gvfdiffusion.github.io/.
English
In this paper, we present a novel framework for video-to-4D generation that
creates high-quality dynamic 3D content from single video inputs. Direct 4D
diffusion modeling is extremely challenging due to costly data construction and
the high-dimensional nature of jointly representing 3D shape, appearance, and
motion. We address these challenges by introducing a Direct 4DMesh-to-GS
Variation Field VAE that directly encodes canonical Gaussian Splats (GS) and
their temporal variations from 3D animation data without per-instance fitting,
and compresses high-dimensional animations into a compact latent space.
Building upon this efficient representation, we train a Gaussian Variation
Field diffusion model with temporal-aware Diffusion Transformer conditioned on
input videos and canonical GS. Trained on carefully-curated animatable 3D
objects from the Objaverse dataset, our model demonstrates superior generation
quality compared to existing methods. It also exhibits remarkable
generalization to in-the-wild video inputs despite being trained exclusively on
synthetic data, paving the way for generating high-quality animated 3D content.
Project page: https://gvfdiffusion.github.io/.