ChatPaper.aiChatPaper

4DNeX : Modélisation générative 4D en flux direct simplifiée

4DNeX: Feed-Forward 4D Generative Modeling Made Easy

August 18, 2025
papers.authors: Zhaoxi Chen, Tianqi Liu, Long Zhuo, Jiawei Ren, Zeng Tao, He Zhu, Fangzhou Hong, Liang Pan, Ziwei Liu
cs.AI

papers.abstract

Nous présentons 4DNeX, le premier cadre de traitement direct pour générer des représentations de scènes 4D (c'est-à-dire 3D dynamiques) à partir d'une seule image. Contrairement aux méthodes existantes qui reposent sur une optimisation coûteuse en calcul ou nécessitent des entrées vidéo multi-images, 4DNeX permet une génération efficace et de bout en bout d'images vers la 4D en affinant un modèle de diffusion vidéo pré-entraîné. Plus précisément, 1) pour pallier la rareté des données 4D, nous construisons 4DNeX-10M, un jeu de données à grande échelle avec des annotations 4D de haute qualité générées à l'aide d'approches de reconstruction avancées. 2) Nous introduisons une représentation vidéo 6D unifiée qui modélise conjointement les séquences RGB et XYZ, facilitant l'apprentissage structuré de l'apparence et de la géométrie. 3) Nous proposons un ensemble de stratégies d'adaptation simples mais efficaces pour réutiliser des modèles de diffusion vidéo pré-entraînés pour la modélisation 4D. 4DNeX produit des nuages de points dynamiques de haute qualité qui permettent la synthèse de vidéos sous de nouveaux points de vue. Des expériences approfondies démontrent que 4DNeX surpasse les méthodes existantes de génération 4D en termes d'efficacité et de généralisabilité, offrant une solution évolutive pour la modélisation d'images vers la 4D et posant les bases de modèles génératifs 4D du monde qui simulent l'évolution dynamique des scènes.
English
We present 4DNeX, the first feed-forward framework for generating 4D (i.e., dynamic 3D) scene representations from a single image. In contrast to existing methods that rely on computationally intensive optimization or require multi-frame video inputs, 4DNeX enables efficient, end-to-end image-to-4D generation by fine-tuning a pretrained video diffusion model. Specifically, 1) to alleviate the scarcity of 4D data, we construct 4DNeX-10M, a large-scale dataset with high-quality 4D annotations generated using advanced reconstruction approaches. 2) we introduce a unified 6D video representation that jointly models RGB and XYZ sequences, facilitating structured learning of both appearance and geometry. 3) we propose a set of simple yet effective adaptation strategies to repurpose pretrained video diffusion models for 4D modeling. 4DNeX produces high-quality dynamic point clouds that enable novel-view video synthesis. Extensive experiments demonstrate that 4DNeX outperforms existing 4D generation methods in efficiency and generalizability, offering a scalable solution for image-to-4D modeling and laying the foundation for generative 4D world models that simulate dynamic scene evolution.
PDF492August 19, 2025