ChatPaper.aiChatPaper

V^3: Просмотр объемных видео на мобильных устройствах с помощью потоковых 2D динамических гауссовских функций

V^3: Viewing Volumetric Videos on Mobiles via Streamable 2D Dynamic Gaussians

September 20, 2024
Авторы: Penghao Wang, Zhirui Zhang, Liao Wang, Kaixin Yao, Siyuan Xie, Jingyi Yu, Minye Wu, Lan Xu
cs.AI

Аннотация

Получение объемного видео высокой четкости так же легко, как 2D видео, давно является мечтой. Однако текущие методы динамической трехмерной графики, несмотря на высокое качество визуализации, сталкиваются с проблемами при потоковой передаче на мобильных устройствах из-за ограничений вычислительных мощностей и пропускной способности. В данной статье мы представляем V3 (Просмотр объемных видео), новый подход, позволяющий осуществлять высококачественную визуализацию на мобильных устройствах путем потоковой передачи динамических гауссов. Нашим ключевым новшеством является рассмотрение динамической трехмерной графики как 2D видео, что облегчает использование аппаратных видеокодеков. Кроме того, мы предлагаем двухэтапную стратегию обучения для снижения требований к хранилищу с быстрой скоростью обучения. Первый этап использует хэш-кодирование и неглубокие многослойные перцептроны для изучения движения, затем сокращает количество гауссов путем обрезки, чтобы соответствовать требованиям потоковой передачи, в то время как второй этап доводит другие атрибуты гауссов до совершенства, используя потерю остаточной энтропии и временную потерю для улучшения временной непрерывности. Эта стратегия, разделяющая движение и внешний вид, обеспечивает высокое качество визуализации при компактных требованиях к хранилищу. Тем временем, мы разработали многофункциональный плеер для декодирования и визуализации 2D гауссовских видео. Обширные эксперименты демонстрируют эффективность V3, превосходя другие методы, обеспечивая высококачественную визуализацию и потоковую передачу на обычных устройствах, что ранее не встречалось. Будучи первыми, кто осуществляет потоковую передачу динамических гауссов на мобильных устройствах, наш плеер предлагает пользователям непревзойденный опыт объемного видео, включая плавную прокрутку и мгновенное обмен. Наша страница проекта с исходным кодом доступна по адресу https://authoritywang.github.io/v3/.
English
Experiencing high-fidelity volumetric video as seamlessly as 2D videos is a long-held dream. However, current dynamic 3DGS methods, despite their high rendering quality, face challenges in streaming on mobile devices due to computational and bandwidth constraints. In this paper, we introduce V3(Viewing Volumetric Videos), a novel approach that enables high-quality mobile rendering through the streaming of dynamic Gaussians. Our key innovation is to view dynamic 3DGS as 2D videos, facilitating the use of hardware video codecs. Additionally, we propose a two-stage training strategy to reduce storage requirements with rapid training speed. The first stage employs hash encoding and shallow MLP to learn motion, then reduces the number of Gaussians through pruning to meet the streaming requirements, while the second stage fine tunes other Gaussian attributes using residual entropy loss and temporal loss to improve temporal continuity. This strategy, which disentangles motion and appearance, maintains high rendering quality with compact storage requirements. Meanwhile, we designed a multi-platform player to decode and render 2D Gaussian videos. Extensive experiments demonstrate the effectiveness of V3, outperforming other methods by enabling high-quality rendering and streaming on common devices, which is unseen before. As the first to stream dynamic Gaussians on mobile devices, our companion player offers users an unprecedented volumetric video experience, including smooth scrolling and instant sharing. Our project page with source code is available at https://authoritywang.github.io/v3/.

Summary

AI-Generated Summary

PDF122November 16, 2024