Campo de Variación Gaussiana para la Difusión en la Síntesis de Video-a-4D de Alta Fidelidad

Resumen

En este artículo, presentamos un marco novedoso para la generación de video-a-4D que crea contenido dinámico 3D de alta calidad a partir de entradas de video únicas. El modelado directo de difusión 4D es extremadamente desafiante debido al costoso proceso de construcción de datos y a la naturaleza de alta dimensión de representar conjuntamente la forma 3D, la apariencia y el movimiento. Abordamos estos desafíos introduciendo un VAE de Campo de Variación Directo 4DMesh-a-GS que codifica directamente Gaussian Splats (GS) canónicos y sus variaciones temporales a partir de datos de animación 3D sin ajuste por instancia, y comprime animaciones de alta dimensión en un espacio latente compacto. Basándonos en esta representación eficiente, entrenamos un modelo de difusión de Campo de Variación Gaussiana con un Transformer de Difusión consciente del tiempo, condicionado por videos de entrada y GS canónicos. Entrenado en objetos 3D animables cuidadosamente seleccionados del conjunto de datos Objaverse, nuestro modelo demuestra una calidad de generación superior en comparación con los métodos existentes. También exhibe una generalización notable para entradas de video en entornos no controlados, a pesar de haber sido entrenado exclusivamente con datos sintéticos, allanando el camino para la generación de contenido 3D animado de alta calidad. Página del proyecto: https://gvfdiffusion.github.io/.

English

In this paper, we present a novel framework for video-to-4D generation that creates high-quality dynamic 3D content from single video inputs. Direct 4D diffusion modeling is extremely challenging due to costly data construction and the high-dimensional nature of jointly representing 3D shape, appearance, and motion. We address these challenges by introducing a Direct 4DMesh-to-GS Variation Field VAE that directly encodes canonical Gaussian Splats (GS) and their temporal variations from 3D animation data without per-instance fitting, and compresses high-dimensional animations into a compact latent space. Building upon this efficient representation, we train a Gaussian Variation Field diffusion model with temporal-aware Diffusion Transformer conditioned on input videos and canonical GS. Trained on carefully-curated animatable 3D objects from the Objaverse dataset, our model demonstrates superior generation quality compared to existing methods. It also exhibits remarkable generalization to in-the-wild video inputs despite being trained exclusively on synthetic data, paving the way for generating high-quality animated 3D content. Project page: https://gvfdiffusion.github.io/.

Campo de Variación Gaussiana para la Difusión en la Síntesis de Video-a-4D de Alta Fidelidad

Gaussian Variation Field Diffusion for High-fidelity Video-to-4D Synthesis

Resumen

Support