Гауссово вариационное поле диффузии для синтеза видео в 4D с высокой точностью
Gaussian Variation Field Diffusion for High-fidelity Video-to-4D Synthesis
July 31, 2025
Авторы: Bowen Zhang, Sicheng Xu, Chuxin Wang, Jiaolong Yang, Feng Zhao, Dong Chen, Baining Guo
cs.AI
Аннотация
В данной статье мы представляем новую структуру для генерации видео в 4D, которая создает высококачественное динамическое 3D-содержание на основе одиночных видеовходов. Прямое моделирование 4D-диффузии является крайне сложной задачей из-за дорогостоящего построения данных и высокой размерности совместного представления 3D-формы, внешнего вида и движения. Мы решаем эти проблемы, вводя Direct 4DMesh-to-GS Variation Field VAE, который напрямую кодирует канонические гауссовы сплаты (GS) и их временные вариации из данных 3D-анимации без подгонки для каждого экземпляра, а также сжимает высокоразмерные анимации в компактное латентное пространство. На основе этого эффективного представления мы обучаем модель диффузии Gaussian Variation Field с временно-осознанным Diffusion Transformer, обусловленным входными видео и каноническими GS. Обучаясь на тщательно отобранных анимируемых 3D-объектах из набора данных Objaverse, наша модель демонстрирует превосходное качество генерации по сравнению с существующими методами. Она также показывает замечательную обобщаемость для видеовходов из реального мира, несмотря на обучение исключительно на синтетических данных, прокладывая путь для создания высококачественного анимированного 3D-контента. Страница проекта: https://gvfdiffusion.github.io/.
English
In this paper, we present a novel framework for video-to-4D generation that
creates high-quality dynamic 3D content from single video inputs. Direct 4D
diffusion modeling is extremely challenging due to costly data construction and
the high-dimensional nature of jointly representing 3D shape, appearance, and
motion. We address these challenges by introducing a Direct 4DMesh-to-GS
Variation Field VAE that directly encodes canonical Gaussian Splats (GS) and
their temporal variations from 3D animation data without per-instance fitting,
and compresses high-dimensional animations into a compact latent space.
Building upon this efficient representation, we train a Gaussian Variation
Field diffusion model with temporal-aware Diffusion Transformer conditioned on
input videos and canonical GS. Trained on carefully-curated animatable 3D
objects from the Objaverse dataset, our model demonstrates superior generation
quality compared to existing methods. It also exhibits remarkable
generalization to in-the-wild video inputs despite being trained exclusively on
synthetic data, paving the way for generating high-quality animated 3D content.
Project page: https://gvfdiffusion.github.io/.