4DNeX: フォワードパス型4D生成モデリングを簡単に

要旨

本論文では、単一画像から4D（動的3D）シーン表現を生成する初のフィードフォワードフレームワークである4DNeXを提案する。従来の計算集約的な最適化手法や複数フレームのビデオ入力を必要とする手法とは異なり、4DNeXは事前学習済みのビデオ拡散モデルを微調整することで、効率的なエンドツーエンドの画像から4D生成を実現する。具体的には、1) 4Dデータの不足を解消するため、高度な再構成手法を用いて生成した高品質な4Dアノテーションを含む大規模データセット4DNeX-10Mを構築した。2) RGBシーケンスとXYZシーケンスを統合的にモデル化する6Dビデオ表現を導入し、外観と形状の構造化された学習を可能にした。3) 事前学習済みのビデオ拡散モデルを4Dモデリングに適応させるためのシンプルかつ効果的な戦略を提案した。4DNeXは高品質な動的点群を生成し、新規視点ビデオ合成を可能にする。大規模な実験により、4DNeXは既存の4D生成手法を効率性と汎化性能の面で上回り、画像から4Dモデリングへのスケーラブルなソリューションを提供し、動的シーン進化をシミュレートする生成的な4D世界モデルの基盤を築くものであることを示した。

English

We present 4DNeX, the first feed-forward framework for generating 4D (i.e., dynamic 3D) scene representations from a single image. In contrast to existing methods that rely on computationally intensive optimization or require multi-frame video inputs, 4DNeX enables efficient, end-to-end image-to-4D generation by fine-tuning a pretrained video diffusion model. Specifically, 1) to alleviate the scarcity of 4D data, we construct 4DNeX-10M, a large-scale dataset with high-quality 4D annotations generated using advanced reconstruction approaches. 2) we introduce a unified 6D video representation that jointly models RGB and XYZ sequences, facilitating structured learning of both appearance and geometry. 3) we propose a set of simple yet effective adaptation strategies to repurpose pretrained video diffusion models for 4D modeling. 4DNeX produces high-quality dynamic point clouds that enable novel-view video synthesis. Extensive experiments demonstrate that 4DNeX outperforms existing 4D generation methods in efficiency and generalizability, offering a scalable solution for image-to-4D modeling and laying the foundation for generative 4D world models that simulate dynamic scene evolution.

4DNeX: フォワードパス型4D生成モデリングを簡単に

4DNeX: Feed-Forward 4D Generative Modeling Made Easy

要旨

Support