Tele-Aloha : Un système de téléprésence à faible coût et haute authenticité utilisant des caméras RGB éparses
Tele-Aloha: A Low-budget and High-authenticity Telepresence System Using Sparse RGB Cameras
May 23, 2024
Auteurs: Hanzhang Tu, Ruizhi Shao, Xue Dong, Shunyuan Zheng, Hao Zhang, Lili Chen, Meili Wang, Wenyu Li, Siyan Ma, Shengping Zhang, Boyao Zhou, Yebin Liu
cs.AI
Résumé
Dans cet article, nous présentons un système de téléprésence bidirectionnel à faible coût et haute authenticité, Tele-Aloha, conçu pour des scénarios de communication pair-à-pair. Par rapport aux systèmes précédents, Tele-Aloha utilise seulement quatre caméras RGB éparses, un GPU grand public et un écran autostéréoscopique pour atteindre une haute résolution (2048x2048), un rendu en temps réel (30 ips), une faible latence (moins de 150 ms) et une communication distante robuste. Au cœur de Tele-Aloha, nous proposons un algorithme efficace de synthèse de nouvelles vues pour le haut du corps. Tout d'abord, nous concevons un estimateur de disparité en cascade pour obtenir un indice géométrique robuste. Ensuite, un rastériseur neuronal via le lissage gaussien est introduit pour projeter les caractéristiques latentes sur la vue cible et les décoder en une résolution réduite. De plus, grâce aux données capturées de haute qualité, nous exploitons un mécanisme de mélange pondéré pour affiner l'image décodée jusqu'à la résolution finale de 2K. En tirant parti d'un écran autostéréoscopique de pointe et d'un suivi de l'iris à faible latence, les utilisateurs peuvent ressentir une forte sensation de tridimensionnalité sans aucun dispositif de visualisation porté sur la tête. Dans l'ensemble, notre système de téléprésence démontre un sentiment de co-présence dans des expériences réelles, inspirant la prochaine génération de communication.
English
In this paper, we present a low-budget and high-authenticity bidirectional
telepresence system, Tele-Aloha, targeting peer-to-peer communication
scenarios. Compared to previous systems, Tele-Aloha utilizes only four sparse
RGB cameras, one consumer-grade GPU, and one autostereoscopic screen to achieve
high-resolution (2048x2048), real-time (30 fps), low-latency (less than 150ms)
and robust distant communication. As the core of Tele-Aloha, we propose an
efficient novel view synthesis algorithm for upper-body. Firstly, we design a
cascaded disparity estimator for obtaining a robust geometry cue. Additionally
a neural rasterizer via Gaussian Splatting is introduced to project latent
features onto target view and to decode them into a reduced resolution.
Further, given the high-quality captured data, we leverage weighted blending
mechanism to refine the decoded image into the final resolution of 2K.
Exploiting world-leading autostereoscopic display and low-latency iris
tracking, users are able to experience a strong three-dimensional sense even
without any wearable head-mounted display device. Altogether, our telepresence
system demonstrates the sense of co-presence in real-life experiments,
inspiring the next generation of communication.Summary
AI-Generated Summary