ChatPaper.aiChatPaper

Campo di Variazione Gaussiana per la Diffusione nella Sintesi Video-to-4D ad Alta Fedeltà

Gaussian Variation Field Diffusion for High-fidelity Video-to-4D Synthesis

July 31, 2025
Autori: Bowen Zhang, Sicheng Xu, Chuxin Wang, Jiaolong Yang, Feng Zhao, Dong Chen, Baining Guo
cs.AI

Abstract

In questo articolo, presentiamo un nuovo framework per la generazione video-to-4D che crea contenuti 3D dinamici di alta qualità a partire da input video singoli. La modellazione diretta della diffusione 4D è estremamente complessa a causa dei costi elevati nella costruzione dei dati e della natura ad alta dimensionalità della rappresentazione congiunta di forma 3D, aspetto e movimento. Affrontiamo queste sfide introducendo un VAE Direct 4DMesh-to-GS Variation Field che codifica direttamente i Gaussian Splats (GS) canonici e le loro variazioni temporali da dati di animazione 3D senza adattamento per istanza, e comprime animazioni ad alta dimensionalità in uno spazio latente compatto. Basandoci su questa rappresentazione efficiente, addestriamo un modello di diffusione Gaussian Variation Field con un Diffusion Transformer temporalmente consapevole condizionato da video di input e GS canonici. Addestrato su oggetti 3D animabili accuratamente selezionati dal dataset Objaverse, il nostro modello dimostra una qualità di generazione superiore rispetto ai metodi esistenti. Mostra inoltre una notevole generalizzazione su input video reali nonostante sia stato addestrato esclusivamente su dati sintetici, aprendo la strada alla generazione di contenuti 3D animati di alta qualità. Pagina del progetto: https://gvfdiffusion.github.io/.
English
In this paper, we present a novel framework for video-to-4D generation that creates high-quality dynamic 3D content from single video inputs. Direct 4D diffusion modeling is extremely challenging due to costly data construction and the high-dimensional nature of jointly representing 3D shape, appearance, and motion. We address these challenges by introducing a Direct 4DMesh-to-GS Variation Field VAE that directly encodes canonical Gaussian Splats (GS) and their temporal variations from 3D animation data without per-instance fitting, and compresses high-dimensional animations into a compact latent space. Building upon this efficient representation, we train a Gaussian Variation Field diffusion model with temporal-aware Diffusion Transformer conditioned on input videos and canonical GS. Trained on carefully-curated animatable 3D objects from the Objaverse dataset, our model demonstrates superior generation quality compared to existing methods. It also exhibits remarkable generalization to in-the-wild video inputs despite being trained exclusively on synthetic data, paving the way for generating high-quality animated 3D content. Project page: https://gvfdiffusion.github.io/.
PDF182December 16, 2025