ChatPaper.aiChatPaper

4DNeX: Modelado Generativo 4D de Avance Rápido Simplificado

4DNeX: Feed-Forward 4D Generative Modeling Made Easy

August 18, 2025
Autores: Zhaoxi Chen, Tianqi Liu, Long Zhuo, Jiawei Ren, Zeng Tao, He Zhu, Fangzhou Hong, Liang Pan, Ziwei Liu
cs.AI

Resumen

Presentamos 4DNeX, el primer marco de trabajo de propagación directa para generar representaciones de escenas 4D (es decir, 3D dinámicas) a partir de una sola imagen. A diferencia de los métodos existentes que dependen de optimizaciones computacionalmente intensivas o requieren entradas de video de múltiples fotogramas, 4DNeX permite una generación eficiente de imagen a 4D de extremo a extremo mediante el ajuste fino de un modelo de difusión de video preentrenado. Específicamente, 1) para mitigar la escasez de datos 4D, construimos 4DNeX-10M, un conjunto de datos a gran escala con anotaciones 4D de alta calidad generadas utilizando enfoques avanzados de reconstrucción. 2) Introducimos una representación de video unificada en 6D que modela conjuntamente secuencias RGB y XYZ, facilitando el aprendizaje estructurado tanto de la apariencia como de la geometría. 3) Proponemos un conjunto de estrategias de adaptación simples pero efectivas para reutilizar modelos de difusión de video preentrenados en el modelado 4D. 4DNeX produce nubes de puntos dinámicas de alta calidad que permiten la síntesis de video desde nuevas perspectivas. Experimentos exhaustivos demuestran que 4DNeX supera a los métodos existentes de generación 4D en eficiencia y generalización, ofreciendo una solución escalable para el modelado de imagen a 4D y sentando las bases para modelos generativos 4D del mundo que simulan la evolución dinámica de escenas.
English
We present 4DNeX, the first feed-forward framework for generating 4D (i.e., dynamic 3D) scene representations from a single image. In contrast to existing methods that rely on computationally intensive optimization or require multi-frame video inputs, 4DNeX enables efficient, end-to-end image-to-4D generation by fine-tuning a pretrained video diffusion model. Specifically, 1) to alleviate the scarcity of 4D data, we construct 4DNeX-10M, a large-scale dataset with high-quality 4D annotations generated using advanced reconstruction approaches. 2) we introduce a unified 6D video representation that jointly models RGB and XYZ sequences, facilitating structured learning of both appearance and geometry. 3) we propose a set of simple yet effective adaptation strategies to repurpose pretrained video diffusion models for 4D modeling. 4DNeX produces high-quality dynamic point clouds that enable novel-view video synthesis. Extensive experiments demonstrate that 4DNeX outperforms existing 4D generation methods in efficiency and generalizability, offering a scalable solution for image-to-4D modeling and laying the foundation for generative 4D world models that simulate dynamic scene evolution.
PDF492August 19, 2025