Теле-Алоха: недорогая и высокоаутентичная система телеприсутствия с использованием разреженных RGB-камер
Tele-Aloha: A Low-budget and High-authenticity Telepresence System Using Sparse RGB Cameras
May 23, 2024
Авторы: Hanzhang Tu, Ruizhi Shao, Xue Dong, Shunyuan Zheng, Hao Zhang, Lili Chen, Meili Wang, Wenyu Li, Siyan Ma, Shengping Zhang, Boyao Zhou, Yebin Liu
cs.AI
Аннотация
В данной статье мы представляем недорогую и высокоаутентичную двустороннюю телеприсутствие систему Tele-Aloha, ориентированную на сценарии однорангового общения. По сравнению с предыдущими системами, Tele-Aloha использует только четыре разреженные RGB камеры, один GPU для потребительского рынка и один автостереоскопический экран для достижения высокого разрешения (2048x2048), реального времени (30 fps), низкой задержки (менее 150 мс) и надежного удаленного общения. В качестве основы Tele-Aloha мы предлагаем эффективный новый алгоритм синтеза видов для верхней части тела. Во-первых, мы разрабатываем каскадный оценщик разности для получения надежного геометрического признака. Кроме того, вводится нейронный растропроцессор через гауссовское сплетение для проецирования латентных признаков на целевой вид и их декодирования в уменьшенном разрешении. Далее, учитывая высококачественные захваченные данные, мы используем механизм взвешенного смешивания для улучшения декодированного изображения до окончательного разрешения 2K. Используя ведущий в мире автостереоскопический дисплей и отслеживание радужки с низкой задержкой, пользователи могут испытать сильное трехмерное ощущение даже без ношения устройства гарнитуры. В целом, наша система телеприсутствия демонстрирует ощущение сосуществования в реальных экспериментах, вдохновляя следующее поколение коммуникации.
English
In this paper, we present a low-budget and high-authenticity bidirectional
telepresence system, Tele-Aloha, targeting peer-to-peer communication
scenarios. Compared to previous systems, Tele-Aloha utilizes only four sparse
RGB cameras, one consumer-grade GPU, and one autostereoscopic screen to achieve
high-resolution (2048x2048), real-time (30 fps), low-latency (less than 150ms)
and robust distant communication. As the core of Tele-Aloha, we propose an
efficient novel view synthesis algorithm for upper-body. Firstly, we design a
cascaded disparity estimator for obtaining a robust geometry cue. Additionally
a neural rasterizer via Gaussian Splatting is introduced to project latent
features onto target view and to decode them into a reduced resolution.
Further, given the high-quality captured data, we leverage weighted blending
mechanism to refine the decoded image into the final resolution of 2K.
Exploiting world-leading autostereoscopic display and low-latency iris
tracking, users are able to experience a strong three-dimensional sense even
without any wearable head-mounted display device. Altogether, our telepresence
system demonstrates the sense of co-presence in real-life experiments,
inspiring the next generation of communication.Summary
AI-Generated Summary