Tele-Aloha: Um Sistema de Telepresença de Baixo Custo e Alta Autenticidade Utilizando Câmeras RGB Esparsas
Tele-Aloha: A Low-budget and High-authenticity Telepresence System Using Sparse RGB Cameras
May 23, 2024
Autores: Hanzhang Tu, Ruizhi Shao, Xue Dong, Shunyuan Zheng, Hao Zhang, Lili Chen, Meili Wang, Wenyu Li, Siyan Ma, Shengping Zhang, Boyao Zhou, Yebin Liu
cs.AI
Resumo
Neste artigo, apresentamos um sistema de telepresença bidirecional de baixo custo e alta autenticidade, denominado Tele-Aloha, voltado para cenários de comunicação ponto a ponto. Em comparação com sistemas anteriores, o Tele-Aloha utiliza apenas quatro câmeras RGB esparsas, uma GPU de nível consumidor e uma tela autoestereoscópica para alcançar comunicação remota de alta resolução (2048x2048), em tempo real (30 fps), com baixa latência (menos de 150 ms) e robusta. Como núcleo do Tele-Aloha, propomos um algoritmo eficiente de síntese de novas visões para a parte superior do corpo. Primeiramente, projetamos um estimador de disparidade em cascata para obter uma indicação geométrica robusta. Além disso, introduzimos um rasterizador neural via *Gaussian Splatting* para projetar características latentes na visão alvo e decodificá-las em uma resolução reduzida. Adicionalmente, com base nos dados capturados de alta qualidade, empregamos um mecanismo de mesclagem ponderada para refinar a imagem decodificada até a resolução final de 2K. Aproveitando uma tela autoestereoscópica de ponta e rastreamento de íris de baixa latência, os usuários podem experimentar uma forte sensação tridimensional sem a necessidade de qualquer dispositivo de exibição montado na cabeça. Em conjunto, nosso sistema de telepresença demonstra a sensação de copresença em experimentos da vida real, inspirando a próxima geração de comunicação.
English
In this paper, we present a low-budget and high-authenticity bidirectional
telepresence system, Tele-Aloha, targeting peer-to-peer communication
scenarios. Compared to previous systems, Tele-Aloha utilizes only four sparse
RGB cameras, one consumer-grade GPU, and one autostereoscopic screen to achieve
high-resolution (2048x2048), real-time (30 fps), low-latency (less than 150ms)
and robust distant communication. As the core of Tele-Aloha, we propose an
efficient novel view synthesis algorithm for upper-body. Firstly, we design a
cascaded disparity estimator for obtaining a robust geometry cue. Additionally
a neural rasterizer via Gaussian Splatting is introduced to project latent
features onto target view and to decode them into a reduced resolution.
Further, given the high-quality captured data, we leverage weighted blending
mechanism to refine the decoded image into the final resolution of 2K.
Exploiting world-leading autostereoscopic display and low-latency iris
tracking, users are able to experience a strong three-dimensional sense even
without any wearable head-mounted display device. Altogether, our telepresence
system demonstrates the sense of co-presence in real-life experiments,
inspiring the next generation of communication.