V^3: Просмотр объемных видео на мобильных устройствах с помощью потоковых 2D динамических гауссовских функций
V^3: Viewing Volumetric Videos on Mobiles via Streamable 2D Dynamic Gaussians
September 20, 2024
Авторы: Penghao Wang, Zhirui Zhang, Liao Wang, Kaixin Yao, Siyuan Xie, Jingyi Yu, Minye Wu, Lan Xu
cs.AI
Аннотация
Получение объемного видео высокой четкости так же легко, как 2D видео, давно является мечтой. Однако текущие методы динамической трехмерной графики, несмотря на высокое качество визуализации, сталкиваются с проблемами при потоковой передаче на мобильных устройствах из-за ограничений вычислительных мощностей и пропускной способности. В данной статье мы представляем V3 (Просмотр объемных видео), новый подход, позволяющий осуществлять высококачественную визуализацию на мобильных устройствах путем потоковой передачи динамических гауссов. Нашим ключевым новшеством является рассмотрение динамической трехмерной графики как 2D видео, что облегчает использование аппаратных видеокодеков. Кроме того, мы предлагаем двухэтапную стратегию обучения для снижения требований к хранилищу с быстрой скоростью обучения. Первый этап использует хэш-кодирование и неглубокие многослойные перцептроны для изучения движения, затем сокращает количество гауссов путем обрезки, чтобы соответствовать требованиям потоковой передачи, в то время как второй этап доводит другие атрибуты гауссов до совершенства, используя потерю остаточной энтропии и временную потерю для улучшения временной непрерывности. Эта стратегия, разделяющая движение и внешний вид, обеспечивает высокое качество визуализации при компактных требованиях к хранилищу. Тем временем, мы разработали многофункциональный плеер для декодирования и визуализации 2D гауссовских видео. Обширные эксперименты демонстрируют эффективность V3, превосходя другие методы, обеспечивая высококачественную визуализацию и потоковую передачу на обычных устройствах, что ранее не встречалось. Будучи первыми, кто осуществляет потоковую передачу динамических гауссов на мобильных устройствах, наш плеер предлагает пользователям непревзойденный опыт объемного видео, включая плавную прокрутку и мгновенное обмен. Наша страница проекта с исходным кодом доступна по адресу https://authoritywang.github.io/v3/.
English
Experiencing high-fidelity volumetric video as seamlessly as 2D videos is a
long-held dream. However, current dynamic 3DGS methods, despite their high
rendering quality, face challenges in streaming on mobile devices due to
computational and bandwidth constraints. In this paper, we introduce
V3(Viewing Volumetric Videos), a novel approach that enables
high-quality mobile rendering through the streaming of dynamic Gaussians. Our
key innovation is to view dynamic 3DGS as 2D videos, facilitating the use of
hardware video codecs. Additionally, we propose a two-stage training strategy
to reduce storage requirements with rapid training speed. The first stage
employs hash encoding and shallow MLP to learn motion, then reduces the number
of Gaussians through pruning to meet the streaming requirements, while the
second stage fine tunes other Gaussian attributes using residual entropy loss
and temporal loss to improve temporal continuity. This strategy, which
disentangles motion and appearance, maintains high rendering quality with
compact storage requirements. Meanwhile, we designed a multi-platform player to
decode and render 2D Gaussian videos. Extensive experiments demonstrate the
effectiveness of V3, outperforming other methods by enabling
high-quality rendering and streaming on common devices, which is unseen before.
As the first to stream dynamic Gaussians on mobile devices, our companion
player offers users an unprecedented volumetric video experience, including
smooth scrolling and instant sharing. Our project page with source code is
available at https://authoritywang.github.io/v3/.Summary
AI-Generated Summary