ChatPaper.aiChatPaper

4DNeX: Voortschrijdende 4D Generatieve Modellering Gemakkelijk Gemaakt

4DNeX: Feed-Forward 4D Generative Modeling Made Easy

August 18, 2025
Auteurs: Zhaoxi Chen, Tianqi Liu, Long Zhuo, Jiawei Ren, Zeng Tao, He Zhu, Fangzhou Hong, Liang Pan, Ziwei Liu
cs.AI

Samenvatting

We presenteren 4DNeX, het eerste feed-forward framework voor het genereren van 4D (dynamische 3D) scène-representaties vanuit een enkele afbeelding. In tegenstelling tot bestaande methoden die afhankelijk zijn van rekenintensieve optimalisatie of meerdere videoframes als invoer vereisen, maakt 4DNeX efficiënte, end-to-end beeld-naar-4D generatie mogelijk door een vooraf getraind videodiffusiemodel te fine-tunen. Specifiek: 1) om het gebrek aan 4D-data te verlichten, hebben we 4DNeX-10M geconstrueerd, een grootschalige dataset met hoogwaardige 4D-annotaties gegenereerd met geavanceerde reconstructiebenaderingen. 2) we introduceren een uniforme 6D-videorepresentatie die RGB- en XYZ-sequenties gezamenlijk modelleert, wat gestructureerd leren van zowel uiterlijk als geometrie vergemakkelijkt. 3) we stellen een reeks eenvoudige maar effectieve aanpassingsstrategieën voor om vooraf getrainde videodiffusiemodellen geschikt te maken voor 4D-modellering. 4DNeX produceert hoogwaardige dynamische puntenwolken die nieuwe-weergave-videosynthese mogelijk maken. Uitgebreide experimenten tonen aan dat 4DNeX bestaande 4D-generatiemethoden overtreft in efficiëntie en generaliseerbaarheid, en biedt een schaalbare oplossing voor beeld-naar-4D modellering, waarmee de basis wordt gelegd voor generatieve 4D-wereldmodellen die dynamische scène-evolutie simuleren.
English
We present 4DNeX, the first feed-forward framework for generating 4D (i.e., dynamic 3D) scene representations from a single image. In contrast to existing methods that rely on computationally intensive optimization or require multi-frame video inputs, 4DNeX enables efficient, end-to-end image-to-4D generation by fine-tuning a pretrained video diffusion model. Specifically, 1) to alleviate the scarcity of 4D data, we construct 4DNeX-10M, a large-scale dataset with high-quality 4D annotations generated using advanced reconstruction approaches. 2) we introduce a unified 6D video representation that jointly models RGB and XYZ sequences, facilitating structured learning of both appearance and geometry. 3) we propose a set of simple yet effective adaptation strategies to repurpose pretrained video diffusion models for 4D modeling. 4DNeX produces high-quality dynamic point clouds that enable novel-view video synthesis. Extensive experiments demonstrate that 4DNeX outperforms existing 4D generation methods in efficiency and generalizability, offering a scalable solution for image-to-4D modeling and laying the foundation for generative 4D world models that simulate dynamic scene evolution.
PDF622August 19, 2025