Tele-Aloha: Un sistema de telepresencia de bajo costo y alta autenticidad utilizando cámaras RGB escasas

Tele-Aloha: A Low-budget and High-authenticity Telepresence System Using Sparse RGB Cameras

May 23, 2024
Autores: Hanzhang Tu, Ruizhi Shao, Xue Dong, Shunyuan Zheng, Hao Zhang, Lili Chen, Meili Wang, Wenyu Li, Siyan Ma, Shengping Zhang, Boyao Zhou, Yebin Liu
cs.AI

Resumen

En este artículo, presentamos un sistema de telepresencia bidireccional de bajo costo y alta autenticidad, Tele-Aloha, dirigido a escenarios de comunicación entre pares. En comparación con sistemas anteriores, Tele-Aloha utiliza solo cuatro cámaras RGB dispersas, una GPU de consumo y una pantalla autoestereoscópica para lograr una comunicación a distancia de alta resolución (2048x2048), en tiempo real (30 fps), baja latencia (menos de 150 ms) y robusta. Como núcleo de Tele-Aloha, proponemos un algoritmo eficiente de síntesis de vistas novedosas para la parte superior del cuerpo. En primer lugar, diseñamos un estimador de disparidad en cascada para obtener una señal geométrica robusta. Además, se introduce un rasterizador neuronal mediante Gaussian Splatting para proyectar características latentes en la vista objetivo y decodificarlas en una resolución reducida. Asimismo, aprovechando los datos capturados de alta calidad, utilizamos un mecanismo de mezcla ponderada para refinar la imagen decodificada a la resolución final de 2K. Aprovechando una pantalla autoestereoscópica líder en el mundo y un seguimiento de iris de baja latencia, los usuarios pueden experimentar una fuerte sensación tridimensional sin necesidad de ningún dispositivo de visualización montado en la cabeza. En conjunto, nuestro sistema de telepresencia demuestra la sensación de copresencia en experimentos de la vida real, inspirando la próxima generación de comunicación.
English
In this paper, we present a low-budget and high-authenticity bidirectional telepresence system, Tele-Aloha, targeting peer-to-peer communication scenarios. Compared to previous systems, Tele-Aloha utilizes only four sparse RGB cameras, one consumer-grade GPU, and one autostereoscopic screen to achieve high-resolution (2048x2048), real-time (30 fps), low-latency (less than 150ms) and robust distant communication. As the core of Tele-Aloha, we propose an efficient novel view synthesis algorithm for upper-body. Firstly, we design a cascaded disparity estimator for obtaining a robust geometry cue. Additionally a neural rasterizer via Gaussian Splatting is introduced to project latent features onto target view and to decode them into a reduced resolution. Further, given the high-quality captured data, we leverage weighted blending mechanism to refine the decoded image into the final resolution of 2K. Exploiting world-leading autostereoscopic display and low-latency iris tracking, users are able to experience a strong three-dimensional sense even without any wearable head-mounted display device. Altogether, our telepresence system demonstrates the sense of co-presence in real-life experiments, inspiring the next generation of communication.
PDF90December 15, 2024