ChatPaper.aiChatPaper

Tele-Aloha: Ein kostengünstiges und authentisches Telepräsenzsystem unter Verwendung von spärlichen RGB-Kameras.

Tele-Aloha: A Low-budget and High-authenticity Telepresence System Using Sparse RGB Cameras

May 23, 2024
Autoren: Hanzhang Tu, Ruizhi Shao, Xue Dong, Shunyuan Zheng, Hao Zhang, Lili Chen, Meili Wang, Wenyu Li, Siyan Ma, Shengping Zhang, Boyao Zhou, Yebin Liu
cs.AI

Zusammenfassung

In diesem Paper präsentieren wir ein kostengünstiges und authentisches bidirektionales Telepräsenzsystem, Tele-Aloha, das auf Peer-to-Peer-Kommunikationsszenarien abzielt. Im Vergleich zu früheren Systemen verwendet Tele-Aloha nur vier spärliche RGB-Kameras, eine GPU für Endverbraucher und einen autostereoskopischen Bildschirm, um eine hochauflösende (2048x2048), echtzeitfähige (30 fps), latenzarme (weniger als 150 ms) und robuste Fernkommunikation zu erreichen. Als Kernstück von Tele-Aloha schlagen wir einen effizienten neuartigen Ansichtssynthesealgorithmus für den Oberkörper vor. Zunächst entwerfen wir einen gestuften Disparitätsschätzer zur Erlangung eines robusten geometrischen Hinweises. Darüber hinaus wird ein neuronaler Rasterisierer über Gaussches Splatting eingeführt, um latente Merkmale auf die Zielansicht zu projizieren und in eine reduzierte Auflösung zu decodieren. Weiterhin nutzen wir aufgrund der hochwertigen erfassten Daten einen gewichteten Mischmechanismus, um das decodierte Bild in die endgültige Auflösung von 2K zu verfeinern. Durch die Nutzung führender autostereoskopischer Displays und der latenzarmen Irisverfolgung können Benutzer ein starkes dreidimensionales Gefühl erleben, selbst ohne eine tragbare Head-Mounted-Display-Vorrichtung. Insgesamt zeigt unser Telepräsenzsystem in realen Experimenten ein Gefühl der Mitpräsenz und inspiriert die nächste Generation der Kommunikation.
English
In this paper, we present a low-budget and high-authenticity bidirectional telepresence system, Tele-Aloha, targeting peer-to-peer communication scenarios. Compared to previous systems, Tele-Aloha utilizes only four sparse RGB cameras, one consumer-grade GPU, and one autostereoscopic screen to achieve high-resolution (2048x2048), real-time (30 fps), low-latency (less than 150ms) and robust distant communication. As the core of Tele-Aloha, we propose an efficient novel view synthesis algorithm for upper-body. Firstly, we design a cascaded disparity estimator for obtaining a robust geometry cue. Additionally a neural rasterizer via Gaussian Splatting is introduced to project latent features onto target view and to decode them into a reduced resolution. Further, given the high-quality captured data, we leverage weighted blending mechanism to refine the decoded image into the final resolution of 2K. Exploiting world-leading autostereoscopic display and low-latency iris tracking, users are able to experience a strong three-dimensional sense even without any wearable head-mounted display device. Altogether, our telepresence system demonstrates the sense of co-presence in real-life experiments, inspiring the next generation of communication.

Summary

AI-Generated Summary

PDF90December 15, 2024