4DNeX: Modellazione Generativa 4D in Avanti Semplificata
4DNeX: Feed-Forward 4D Generative Modeling Made Easy
August 18, 2025
Autori: Zhaoxi Chen, Tianqi Liu, Long Zhuo, Jiawei Ren, Zeng Tao, He Zhu, Fangzhou Hong, Liang Pan, Ziwei Liu
cs.AI
Abstract
Presentiamo 4DNeX, il primo framework feed-forward per la generazione di rappresentazioni di scene 4D (ovvero 3D dinamiche) a partire da una singola immagine. A differenza dei metodi esistenti che si basano su ottimizzazioni computazionalmente intensive o richiedono input video multi-frame, 4DNeX consente una generazione efficiente e end-to-end da immagine a 4D attraverso il fine-tuning di un modello di diffusione video pre-addestrato. Nello specifico, 1) per mitigare la scarsità di dati 4D, abbiamo costruito 4DNeX-10M, un dataset su larga scala con annotazioni 4D di alta qualità generate utilizzando approcci avanzati di ricostruzione. 2) Introduciamo una rappresentazione video unificata a 6D che modella congiuntamente sequenze RGB e XYZ, facilitando l'apprendimento strutturato sia dell'aspetto che della geometria. 3) Proponiamo una serie di strategie di adattamento semplici ma efficaci per riutilizzare modelli di diffusione video pre-addestrati per la modellazione 4D. 4DNeX produce nuvole di punti dinamiche di alta qualità che abilitano la sintesi di video da nuove prospettive. Esperimenti estensivi dimostrano che 4DNeX supera i metodi esistenti di generazione 4D in termini di efficienza e generalizzabilità, offrendo una soluzione scalabile per la modellazione da immagine a 4D e gettando le basi per modelli generativi 4D che simulano l'evoluzione dinamica delle scene.
English
We present 4DNeX, the first feed-forward framework for generating 4D (i.e.,
dynamic 3D) scene representations from a single image. In contrast to existing
methods that rely on computationally intensive optimization or require
multi-frame video inputs, 4DNeX enables efficient, end-to-end image-to-4D
generation by fine-tuning a pretrained video diffusion model. Specifically, 1)
to alleviate the scarcity of 4D data, we construct 4DNeX-10M, a large-scale
dataset with high-quality 4D annotations generated using advanced
reconstruction approaches. 2) we introduce a unified 6D video representation
that jointly models RGB and XYZ sequences, facilitating structured learning of
both appearance and geometry. 3) we propose a set of simple yet effective
adaptation strategies to repurpose pretrained video diffusion models for 4D
modeling. 4DNeX produces high-quality dynamic point clouds that enable
novel-view video synthesis. Extensive experiments demonstrate that 4DNeX
outperforms existing 4D generation methods in efficiency and generalizability,
offering a scalable solution for image-to-4D modeling and laying the foundation
for generative 4D world models that simulate dynamic scene evolution.