4DNeX: Einfache Feed-Forward-4D-Generative Modellierung

papers.abstract

Wir präsentieren 4DNeX, das erste Feedforward-Framework zur Erzeugung von 4D (d.h. dynamischen 3D) Szenendarstellungen aus einem einzelnen Bild. Im Gegensatz zu bestehenden Methoden, die auf rechenintensive Optimierung angewiesen sind oder Mehrfachbild-Videoeingaben erfordern, ermöglicht 4DNeX eine effiziente, end-to-end Bild-zu-4D-Generierung durch Feinabstimmung eines vortrainierten Video-Diffusionsmodells. Konkret: 1) Um die Knappheit von 4D-Daten zu beheben, erstellen wir 4DNeX-10M, einen groß angelegten Datensatz mit hochwertigen 4D-Annotationen, die mit fortschrittlichen Rekonstruktionsansätzen generiert wurden. 2) Wir führen eine einheitliche 6D-Videodarstellung ein, die RGB- und XYZ-Sequenzen gemeinsam modelliert und so das strukturierte Lernen von sowohl Erscheinungsbild als auch Geometrie erleichtert. 3) Wir schlagen eine Reihe einfacher, aber effektiver Anpassungsstrategien vor, um vortrainierte Video-Diffusionsmodelle für die 4D-Modellierung umzuwidmen. 4DNeX erzeugt hochwertige dynamische Punktwolken, die die Synthese von Videos aus neuen Blickwinkeln ermöglichen. Umfangreiche Experimente zeigen, dass 4DNeX bestehende 4D-Generierungsmethoden in Bezug auf Effizienz und Generalisierbarkeit übertrifft und eine skalierbare Lösung für die Bild-zu-4D-Modellierung bietet. Damit legt es den Grundstein für generative 4D-Weltmodelle, die die Entwicklung dynamischer Szenen simulieren.

English

We present 4DNeX, the first feed-forward framework for generating 4D (i.e., dynamic 3D) scene representations from a single image. In contrast to existing methods that rely on computationally intensive optimization or require multi-frame video inputs, 4DNeX enables efficient, end-to-end image-to-4D generation by fine-tuning a pretrained video diffusion model. Specifically, 1) to alleviate the scarcity of 4D data, we construct 4DNeX-10M, a large-scale dataset with high-quality 4D annotations generated using advanced reconstruction approaches. 2) we introduce a unified 6D video representation that jointly models RGB and XYZ sequences, facilitating structured learning of both appearance and geometry. 3) we propose a set of simple yet effective adaptation strategies to repurpose pretrained video diffusion models for 4D modeling. 4DNeX produces high-quality dynamic point clouds that enable novel-view video synthesis. Extensive experiments demonstrate that 4DNeX outperforms existing 4D generation methods in efficiency and generalizability, offering a scalable solution for image-to-4D modeling and laying the foundation for generative 4D world models that simulate dynamic scene evolution.

4DNeX: Einfache Feed-Forward-4D-Generative Modellierung

4DNeX: Feed-Forward 4D Generative Modeling Made Easy

papers.abstract

Support