3DGStream: Обучение трехмерных гауссовых моделей на лету для эффективного стриминга фотореалистичных видео с свободным выбором точки обзора
3DGStream: On-the-Fly Training of 3D Gaussians for Efficient Streaming of Photo-Realistic Free-Viewpoint Videos
March 3, 2024
Авторы: Jiakai Sun, Han Jiao, Guangyuan Li, Zhanjie Zhang, Lei Zhao, Wei Xing
cs.AI
Аннотация
Построение фотореалистичных видеороликов свободного обзора (FVV) динамических сцен из многокамерных видео остается сложной задачей. Несмотря на значительные достижения текущих методов нейронного рендеринга, эти методы обычно требуют полных видеопоследовательностей для офлайн-обучения и не способны к реальному временному рендерингу. Для преодоления этих ограничений мы представляем 3DGStream, метод, разработанный для эффективного потокового воспроизведения FVV реальных динамических сцен. Наш метод достигает быстрой реконструкции кадра на лету в течение 12 секунд и реального времени рендеринга со скоростью 200 кадров в секунду. В частности, мы используем 3D гауссианы (3DG) для представления сцены. Вместо наивного подхода прямой оптимизации 3DG на каждый кадр, мы используем компактный кэш нейронных преобразований (NTC) для моделирования трансляций и поворотов 3DG, что значительно сокращает время обучения и объем хранилища, необходимый для каждого кадра FVV. Кроме того, мы предлагаем стратегию адаптивного добавления 3DG для обработки появляющихся объектов в динамических сценах. Эксперименты показывают, что 3DGStream достигает конкурентоспособной производительности в плане скорости рендеринга, качества изображения, времени обучения и объема модели при сравнении с передовыми методами.
English
Constructing photo-realistic Free-Viewpoint Videos (FVVs) of dynamic scenes
from multi-view videos remains a challenging endeavor. Despite the remarkable
advancements achieved by current neural rendering techniques, these methods
generally require complete video sequences for offline training and are not
capable of real-time rendering. To address these constraints, we introduce
3DGStream, a method designed for efficient FVV streaming of real-world dynamic
scenes. Our method achieves fast on-the-fly per-frame reconstruction within 12
seconds and real-time rendering at 200 FPS. Specifically, we utilize 3D
Gaussians (3DGs) to represent the scene. Instead of the na\"ive approach of
directly optimizing 3DGs per-frame, we employ a compact Neural Transformation
Cache (NTC) to model the translations and rotations of 3DGs, markedly reducing
the training time and storage required for each FVV frame. Furthermore, we
propose an adaptive 3DG addition strategy to handle emerging objects in dynamic
scenes. Experiments demonstrate that 3DGStream achieves competitive performance
in terms of rendering speed, image quality, training time, and model storage
when compared with state-of-the-art methods.