Tele-Aloha: Een telepresence-systeem met een laag budget en hoge authenticiteit met behulp van schaarse RGB-camera's
Tele-Aloha: A Low-budget and High-authenticity Telepresence System Using Sparse RGB Cameras
May 23, 2024
Auteurs: Hanzhang Tu, Ruizhi Shao, Xue Dong, Shunyuan Zheng, Hao Zhang, Lili Chen, Meili Wang, Wenyu Li, Siyan Ma, Shengping Zhang, Boyao Zhou, Yebin Liu
cs.AI
Samenvatting
In dit artikel presenteren we een bidirectioneel telepresence-systeem met een laag budget en hoge authenticiteit, genaamd Tele-Aloha, gericht op peer-to-peer communicatiescenario's. In vergelijking met eerdere systemen maakt Tele-Aloha gebruik van slechts vier verspreide RGB-camera's, één consumenten-GPU en één autostereoscopisch scherm om hoogwaardige resolutie (2048x2048), real-time (30 fps), lage latentie (minder dan 150 ms) en robuuste communicatie op afstand te bereiken. Als kern van Tele-Aloha stellen we een efficiënt algoritme voor voor het synthetiseren van nieuwe aanzichten voor het bovenlichaam. Ten eerste ontwerpen we een gecascadeerde dispariteitsschatter om een robuuste geometrie-aanwijzing te verkrijgen. Daarnaast introduceren we een neurale rasterizer via Gaussian Splatting om latente kenmerken te projecteren op het doelbeeld en deze te decoderen naar een verlaagde resolutie. Verder gebruiken we, dankzij de hoogwaardige vastgelegde data, een gewogen blending-mechanisme om het gedecodeerde beeld te verfijnen naar de uiteindelijke resolutie van 2K. Door gebruik te maken van 's werelds toonaangevende autostereoscopische display en lage latentie iristracking, kunnen gebruikers een sterk driedimensionaal gevoel ervaren zonder enig draagbaar head-mounted displayapparaat. Samen toont ons telepresence-systeem het gevoel van co-aanwezigheid in real-life experimenten, wat de volgende generatie communicatie inspireert.
English
In this paper, we present a low-budget and high-authenticity bidirectional
telepresence system, Tele-Aloha, targeting peer-to-peer communication
scenarios. Compared to previous systems, Tele-Aloha utilizes only four sparse
RGB cameras, one consumer-grade GPU, and one autostereoscopic screen to achieve
high-resolution (2048x2048), real-time (30 fps), low-latency (less than 150ms)
and robust distant communication. As the core of Tele-Aloha, we propose an
efficient novel view synthesis algorithm for upper-body. Firstly, we design a
cascaded disparity estimator for obtaining a robust geometry cue. Additionally
a neural rasterizer via Gaussian Splatting is introduced to project latent
features onto target view and to decode them into a reduced resolution.
Further, given the high-quality captured data, we leverage weighted blending
mechanism to refine the decoded image into the final resolution of 2K.
Exploiting world-leading autostereoscopic display and low-latency iris
tracking, users are able to experience a strong three-dimensional sense even
without any wearable head-mounted display device. Altogether, our telepresence
system demonstrates the sense of co-presence in real-life experiments,
inspiring the next generation of communication.