4DNeX: Einfache Feed-Forward-4D-Generative Modellierung
4DNeX: Feed-Forward 4D Generative Modeling Made Easy
August 18, 2025
papers.authors: Zhaoxi Chen, Tianqi Liu, Long Zhuo, Jiawei Ren, Zeng Tao, He Zhu, Fangzhou Hong, Liang Pan, Ziwei Liu
cs.AI
papers.abstract
Wir präsentieren 4DNeX, das erste Feedforward-Framework zur Erzeugung von 4D (d.h. dynamischen 3D) Szenendarstellungen aus einem einzelnen Bild. Im Gegensatz zu bestehenden Methoden, die auf rechenintensive Optimierung angewiesen sind oder Mehrfachbild-Videoeingaben erfordern, ermöglicht 4DNeX eine effiziente, end-to-end Bild-zu-4D-Generierung durch Feinabstimmung eines vortrainierten Video-Diffusionsmodells. Konkret: 1) Um die Knappheit von 4D-Daten zu beheben, erstellen wir 4DNeX-10M, einen groß angelegten Datensatz mit hochwertigen 4D-Annotationen, die mit fortschrittlichen Rekonstruktionsansätzen generiert wurden. 2) Wir führen eine einheitliche 6D-Videodarstellung ein, die RGB- und XYZ-Sequenzen gemeinsam modelliert und so das strukturierte Lernen von sowohl Erscheinungsbild als auch Geometrie erleichtert. 3) Wir schlagen eine Reihe einfacher, aber effektiver Anpassungsstrategien vor, um vortrainierte Video-Diffusionsmodelle für die 4D-Modellierung umzuwidmen. 4DNeX erzeugt hochwertige dynamische Punktwolken, die die Synthese von Videos aus neuen Blickwinkeln ermöglichen. Umfangreiche Experimente zeigen, dass 4DNeX bestehende 4D-Generierungsmethoden in Bezug auf Effizienz und Generalisierbarkeit übertrifft und eine skalierbare Lösung für die Bild-zu-4D-Modellierung bietet. Damit legt es den Grundstein für generative 4D-Weltmodelle, die die Entwicklung dynamischer Szenen simulieren.
English
We present 4DNeX, the first feed-forward framework for generating 4D (i.e.,
dynamic 3D) scene representations from a single image. In contrast to existing
methods that rely on computationally intensive optimization or require
multi-frame video inputs, 4DNeX enables efficient, end-to-end image-to-4D
generation by fine-tuning a pretrained video diffusion model. Specifically, 1)
to alleviate the scarcity of 4D data, we construct 4DNeX-10M, a large-scale
dataset with high-quality 4D annotations generated using advanced
reconstruction approaches. 2) we introduce a unified 6D video representation
that jointly models RGB and XYZ sequences, facilitating structured learning of
both appearance and geometry. 3) we propose a set of simple yet effective
adaptation strategies to repurpose pretrained video diffusion models for 4D
modeling. 4DNeX produces high-quality dynamic point clouds that enable
novel-view video synthesis. Extensive experiments demonstrate that 4DNeX
outperforms existing 4D generation methods in efficiency and generalizability,
offering a scalable solution for image-to-4D modeling and laying the foundation
for generative 4D world models that simulate dynamic scene evolution.