4K4D: Синтез 4D-видов в реальном времени с разрешением 4K
4K4D: Real-Time 4D View Synthesis at 4K Resolution
October 17, 2023
Авторы: Zhen Xu, Sida Peng, Haotong Lin, Guangzhao He, Jiaming Sun, Yujun Shen, Hujun Bao, Xiaowei Zhou
cs.AI
Аннотация
Данная работа направлена на синтез высококачественных и реалистичных видов динамических 3D-сцен в разрешении 4K в режиме реального времени. В последнее время некоторые методы синтеза динамических видов продемонстрировали впечатляющее качество визуализации. Однако их скорость остается ограниченной при рендеринге изображений высокого разрешения. Для решения этой проблемы мы предлагаем 4K4D — представление 4D-облака точек, которое поддерживает аппаратную растеризацию и обеспечивает беспрецедентную скорость рендеринга. Наше представление построено на основе 4D-сетки признаков, что естественным образом регуляризует точки и позволяет эффективно их оптимизировать. Кроме того, мы разработали новую гибридную модель внешнего вида, которая значительно повышает качество рендеринга, сохраняя при этом эффективность. Также мы создали дифференцируемый алгоритм послойного анализа глубины для эффективного обучения предложенной модели на основе RGB-видео. Эксперименты показывают, что наше представление может быть визуализировано со скоростью более 400 кадров в секунду на наборе данных DNA-Rendering в разрешении 1080p и 80 кадров в секунду на наборе данных ENeRF-Outdoor в разрешении 4K с использованием GPU RTX 4090, что в 30 раз быстрее предыдущих методов и достигает наилучшего на сегодняшний день качества рендеринга. Мы опубликуем код для обеспечения воспроизводимости результатов.
English
This paper targets high-fidelity and real-time view synthesis of dynamic 3D
scenes at 4K resolution. Recently, some methods on dynamic view synthesis have
shown impressive rendering quality. However, their speed is still limited when
rendering high-resolution images. To overcome this problem, we propose 4K4D, a
4D point cloud representation that supports hardware rasterization and enables
unprecedented rendering speed. Our representation is built on a 4D feature grid
so that the points are naturally regularized and can be robustly optimized. In
addition, we design a novel hybrid appearance model that significantly boosts
the rendering quality while preserving efficiency. Moreover, we develop a
differentiable depth peeling algorithm to effectively learn the proposed model
from RGB videos. Experiments show that our representation can be rendered at
over 400 FPS on the DNA-Rendering dataset at 1080p resolution and 80 FPS on the
ENeRF-Outdoor dataset at 4K resolution using an RTX 4090 GPU, which is 30x
faster than previous methods and achieves the state-of-the-art rendering
quality. We will release the code for reproducibility.