ChatPaper.aiChatPaper

4DNeX: Простое прямое 4D-генеративное моделирование

4DNeX: Feed-Forward 4D Generative Modeling Made Easy

August 18, 2025
Авторы: Zhaoxi Chen, Tianqi Liu, Long Zhuo, Jiawei Ren, Zeng Tao, He Zhu, Fangzhou Hong, Liang Pan, Ziwei Liu
cs.AI

Аннотация

Мы представляем 4DNeX — первую прямую (feed-forward) архитектуру для генерации 4D-представлений (т.е. динамических 3D-сцен) из одного изображения. В отличие от существующих методов, которые требуют вычислительно затратной оптимизации или многокадровых видеовходов, 4DNeX обеспечивает эффективную сквозную генерацию "изображение-в-4D" за счет дообучения предварительно обученной модели диффузии видео. В частности: 1) для устранения недостатка 4D-данных мы создали 4DNeX-10M — крупномасштабный набор данных с высококачественными 4D-аннотациями, сгенерированными с использованием передовых методов реконструкции; 2) мы вводим унифицированное 6D-представление видео, которое совместно моделирует RGB- и XYZ-последовательности, облегчая структурированное обучение как внешнего вида, так и геометрии; 3) мы предлагаем набор простых, но эффективных стратегий адаптации для перепрофилирования предварительно обученных моделей диффузии видео под задачи 4D-моделирования. 4DNeX генерирует высококачественные динамические облака точек, позволяющие синтезировать видео с новых ракурсов. Многочисленные эксперименты демонстрируют, что 4DNeX превосходит существующие методы генерации 4D по эффективности и обобщаемости, предлагая масштабируемое решение для моделирования "изображение-в-4D" и закладывая основу для генеративных 4D-моделей мира, имитирующих эволюцию динамических сцен.
English
We present 4DNeX, the first feed-forward framework for generating 4D (i.e., dynamic 3D) scene representations from a single image. In contrast to existing methods that rely on computationally intensive optimization or require multi-frame video inputs, 4DNeX enables efficient, end-to-end image-to-4D generation by fine-tuning a pretrained video diffusion model. Specifically, 1) to alleviate the scarcity of 4D data, we construct 4DNeX-10M, a large-scale dataset with high-quality 4D annotations generated using advanced reconstruction approaches. 2) we introduce a unified 6D video representation that jointly models RGB and XYZ sequences, facilitating structured learning of both appearance and geometry. 3) we propose a set of simple yet effective adaptation strategies to repurpose pretrained video diffusion models for 4D modeling. 4DNeX produces high-quality dynamic point clouds that enable novel-view video synthesis. Extensive experiments demonstrate that 4DNeX outperforms existing 4D generation methods in efficiency and generalizability, offering a scalable solution for image-to-4D modeling and laying the foundation for generative 4D world models that simulate dynamic scene evolution.
PDF492August 19, 2025