Vidu4D: Однородное видео преобразуется в высококачественную 4D реконструкцию с динамическими гауссовыми сёрфелями.
Vidu4D: Single Generated Video to High-Fidelity 4D Reconstruction with Dynamic Gaussian Surfels
May 27, 2024
Авторы: Yikai Wang, Xinzhou Wang, Zilong Chen, Zhengyi Wang, Fuchun Sun, Jun Zhu
cs.AI
Аннотация
Видео генеративные модели привлекают особое внимание благодаря их способности создавать реалистичные и фантазийные кадры. Кроме того, отмечается, что эти модели проявляют сильную трехмерную согласованность, значительно увеличивая свой потенциал как симуляторы мира. В данной работе мы представляем Vidu4D, новую модель реконструкции, которая отличается точной реконструкцией 4D (т.е. последовательных 3D) представлений из одиночных сгенерированных видео, решая проблемы, связанные с неригидностью и искажением кадров. Эта способность является ключевой для создания высококачественного виртуального контента, который сохраняет как пространственную, так и временную согласованность. В основе Vidu4D лежит наша предложенная техника Dynamic Gaussian Surfels (DGS). DGS оптимизирует временно изменяющиеся функции искривления для преобразования гауссовых сёрфелей (поверхностных элементов) из статического состояния в динамически искривленное состояние. Это преобразование обеспечивает точное изображение движения и деформации со временем. Для сохранения структурной целостности поверхностно-выровненных гауссовых сёрфелей мы разрабатываем геометрическую регуляризацию искривленного состояния на основе непрерывных полей искривления для оценки нормалей. Кроме того, мы изучаем усовершенствования параметров вращения и масштабирования гауссовых сёрфелей, что значительно снижает мерцание текстуры во время процесса искривления и улучшает захват мелких деталей внешнего вида. Vidu4D также содержит новое инициализационное состояние, которое обеспечивает правильное начало для полей искривления в DGS. Оборудовав Vidu4D существующей видео генеративной моделью, общая структура демонстрирует высококачественную генерацию текста в 4D как по внешнему виду, так и по геометрии.
English
Video generative models are receiving particular attention given their
ability to generate realistic and imaginative frames. Besides, these models are
also observed to exhibit strong 3D consistency, significantly enhancing their
potential to act as world simulators. In this work, we present Vidu4D, a novel
reconstruction model that excels in accurately reconstructing 4D (i.e.,
sequential 3D) representations from single generated videos, addressing
challenges associated with non-rigidity and frame distortion. This capability
is pivotal for creating high-fidelity virtual contents that maintain both
spatial and temporal coherence. At the core of Vidu4D is our proposed Dynamic
Gaussian Surfels (DGS) technique. DGS optimizes time-varying warping functions
to transform Gaussian surfels (surface elements) from a static state to a
dynamically warped state. This transformation enables a precise depiction of
motion and deformation over time. To preserve the structural integrity of
surface-aligned Gaussian surfels, we design the warped-state geometric
regularization based on continuous warping fields for estimating normals.
Additionally, we learn refinements on rotation and scaling parameters of
Gaussian surfels, which greatly alleviates texture flickering during the
warping process and enhances the capture of fine-grained appearance details.
Vidu4D also contains a novel initialization state that provides a proper start
for the warping fields in DGS. Equipping Vidu4D with an existing video
generative model, the overall framework demonstrates high-fidelity text-to-4D
generation in both appearance and geometry.