4DNeX: Modelagem Generativa 4D de Passo Único Simplificada
4DNeX: Feed-Forward 4D Generative Modeling Made Easy
August 18, 2025
Autores: Zhaoxi Chen, Tianqi Liu, Long Zhuo, Jiawei Ren, Zeng Tao, He Zhu, Fangzhou Hong, Liang Pan, Ziwei Liu
cs.AI
Resumo
Apresentamos o 4DNeX, o primeiro framework de propagação direta para gerar representações de cenas 4D (ou seja, 3D dinâmicas) a partir de uma única imagem. Em contraste com métodos existentes que dependem de otimizações computacionalmente intensivas ou exigem entradas de vídeo com múltiplos quadros, o 4DNeX permite a geração eficiente e de ponta a ponta de imagem para 4D por meio do ajuste fino de um modelo de difusão de vídeo pré-treinado. Especificamente, 1) para mitigar a escassez de dados 4D, construímos o 4DNeX-10M, um conjunto de dados em larga escala com anotações 4D de alta qualidade geradas usando abordagens avançadas de reconstrução. 2) Introduzimos uma representação de vídeo 6D unificada que modela conjuntamente sequências RGB e XYZ, facilitando o aprendizado estruturado tanto da aparência quanto da geometria. 3) Propomos um conjunto de estratégias de adaptação simples, porém eficazes, para reutilizar modelos de difusão de vídeo pré-treinados para modelagem 4D. O 4DNeX produz nuvens de pontos dinâmicas de alta qualidade que permitem a síntese de vídeos com novas perspectivas. Experimentos extensivos demonstram que o 4DNeX supera os métodos existentes de geração 4D em eficiência e generalização, oferecendo uma solução escalável para modelagem de imagem para 4D e estabelecendo as bases para modelos de mundo 4D generativos que simulam a evolução dinâmica de cenas.
English
We present 4DNeX, the first feed-forward framework for generating 4D (i.e.,
dynamic 3D) scene representations from a single image. In contrast to existing
methods that rely on computationally intensive optimization or require
multi-frame video inputs, 4DNeX enables efficient, end-to-end image-to-4D
generation by fine-tuning a pretrained video diffusion model. Specifically, 1)
to alleviate the scarcity of 4D data, we construct 4DNeX-10M, a large-scale
dataset with high-quality 4D annotations generated using advanced
reconstruction approaches. 2) we introduce a unified 6D video representation
that jointly models RGB and XYZ sequences, facilitating structured learning of
both appearance and geometry. 3) we propose a set of simple yet effective
adaptation strategies to repurpose pretrained video diffusion models for 4D
modeling. 4DNeX produces high-quality dynamic point clouds that enable
novel-view video synthesis. Extensive experiments demonstrate that 4DNeX
outperforms existing 4D generation methods in efficiency and generalizability,
offering a scalable solution for image-to-4D modeling and laying the foundation
for generative 4D world models that simulate dynamic scene evolution.