Tele-Aloha: Un Sistema di Telepresenza a Basso Costo e Alta Autenticità Utilizzando Telecamere RGB Sparse
Tele-Aloha: A Low-budget and High-authenticity Telepresence System Using Sparse RGB Cameras
May 23, 2024
Autori: Hanzhang Tu, Ruizhi Shao, Xue Dong, Shunyuan Zheng, Hao Zhang, Lili Chen, Meili Wang, Wenyu Li, Siyan Ma, Shengping Zhang, Boyao Zhou, Yebin Liu
cs.AI
Abstract
In questo articolo presentiamo Tele-Aloha, un sistema di telepresenza bidirezionale a basso costo e alta autenticità, progettato per scenari di comunicazione peer-to-peer. Rispetto ai sistemi precedenti, Tele-Aloha utilizza solo quattro telecamere RGB sparse, una GPU di livello consumer e uno schermo autostereoscopico per ottenere una comunicazione a distanza ad alta risoluzione (2048x2048), in tempo reale (30 fps), a bassa latenza (meno di 150 ms) e robusta. Come nucleo di Tele-Aloha, proponiamo un algoritmo efficiente di sintesi di nuove viste per la parte superiore del corpo. In primo luogo, progettiamo uno stimatore di disparità a cascata per ottenere un indizio geometrico robusto. Inoltre, introduciamo un rasterizzatore neurale basato su Gaussian Splatting per proiettare le caratteristiche latenti sulla vista target e decodificarle in una risoluzione ridotta. Inoltre, grazie ai dati catturati di alta qualità, sfruttiamo un meccanismo di fusione ponderata per affinare l'immagine decodificata nella risoluzione finale di 2K. Sfruttando uno schermo autostereoscopico all'avanguardia e un tracciamento dell'iride a bassa latenza, gli utenti possono sperimentare un forte senso di tridimensionalità anche senza alcun dispositivo di visualizzazione indossabile. Nel complesso, il nostro sistema di telepresenza dimostra un senso di co-presenza in esperimenti reali, ispirando la prossima generazione di comunicazione.
English
In this paper, we present a low-budget and high-authenticity bidirectional
telepresence system, Tele-Aloha, targeting peer-to-peer communication
scenarios. Compared to previous systems, Tele-Aloha utilizes only four sparse
RGB cameras, one consumer-grade GPU, and one autostereoscopic screen to achieve
high-resolution (2048x2048), real-time (30 fps), low-latency (less than 150ms)
and robust distant communication. As the core of Tele-Aloha, we propose an
efficient novel view synthesis algorithm for upper-body. Firstly, we design a
cascaded disparity estimator for obtaining a robust geometry cue. Additionally
a neural rasterizer via Gaussian Splatting is introduced to project latent
features onto target view and to decode them into a reduced resolution.
Further, given the high-quality captured data, we leverage weighted blending
mechanism to refine the decoded image into the final resolution of 2K.
Exploiting world-leading autostereoscopic display and low-latency iris
tracking, users are able to experience a strong three-dimensional sense even
without any wearable head-mounted display device. Altogether, our telepresence
system demonstrates the sense of co-presence in real-life experiments,
inspiring the next generation of communication.