번역이 포함된 일일 선별된 AI 연구 논문
최근 연구에서는 언어 모델이 활성화 공간 내에서 개념("특징")의 일차원적 표현을 조작함으로써 계산을 수행한다는 선형 표현 가설을 제안했습니다. 이와 대조적으로, 우리는 일부 언어 모델 표현이 본질적으로 다차원적일 가능성을 탐구합니다. 우리는 먼저, 이러한 표현이 독립적이거나 동시에 발생하지 않는 저차원 특징으로 분해될 수 있는지 여부를 기반으로 환원 불가능한 다차원 특징에 대한 엄격한 정의를 개발합니다. 이러한 정의에 동기를 부여받아, 우리는 GPT-2와 Mistral 7B에서 다차원 특징을 자동으로 찾기 위해 희소 오토인코더를 사용하는 확장 가능한 방법을 설계합니다. 이 자동 발견된 특징들은 매우 해석 가능한 예시들을 포함하며, 예를 들어 요일과 월을 나타내는 원형 특징들이 있습니다. 우리는 이러한 정확한 원형 특징들이 요일과 월과 관련된 모듈러 산술 문제를 해결하는 데 사용되는 작업들을 식별합니다. 마지막으로, 우리는 Mistral 7B와 Llama 3 8B에 대한 개입 실험을 통해 이러한 원형 특징들이 실제로 이러한 작업에서 계산의 기본 단위임을 증거로 제시하고, 이러한 작업에 대한 은닉 상태를 해석 가능한 구성 요소로 분해함으로써 추가적인 원형 표현들을 발견합니다.
Lean과 같은 증명 보조 도구는 수학적 증명 검증에 혁신을 가져와 높은 정확성과 신뢰성을 보장합니다. 대규모 언어 모델(LLM)은 수학적 추론에서 유망한 가능성을 보여주지만, 형식적 정리 증명 분야에서는 학습 데이터의 부족으로 인해 발전이 제한되고 있습니다. 이 문제를 해결하기 위해, 우리는 고등학교 및 학부 수준의 수학 경시대회 문제에서 유래한 Lean 4 증명 데이터를 대규모로 생성하는 접근법을 소개합니다. 이 접근법은 자연어 문제를 형식적 명제로 변환하고, 저품질 명제를 걸러내며, 증명을 생성하여 합성 데이터를 만드는 과정을 포함합니다. DeepSeekMath 7B 모델을 800만 개의 형식적 명제와 증명으로 구성된 이 합성 데이터셋으로 미세 조정한 후, 우리 모델은 Lean 4 miniF2F 테스트에서 64개 샘플 기준 46.3%, 누적 기준 52%의 전체 증명 생성 정확도를 달성했습니다. 이는 64개 샘플 기준 23.0%의 GPT-4와 41.0%의 트리 탐색 강화 학습 방법을 능가하는 성과입니다. 또한, 우리 모델은 Lean 4 Formalized International Mathematical Olympiad(FIMO) 벤치마크에서 148개 문제 중 5개를 성공적으로 증명했으며, GPT-4는 단 하나도 증명하지 못했습니다. 이러한 결과는 대규모 합성 데이터를 활용하여 LLM의 정리 증명 능력을 향상시킬 수 있는 잠재력을 보여줍니다. 합성 데이터셋과 모델은 이 유망한 분야의 추가 연구를 촉진하기 위해 공개될 예정입니다.
확산 모델을 활용한 비디오 생성 및 편집 기술이 크게 발전했음에도 불구하고, 정확하고 지역화된 비디오 편집을 달성하는 것은 여전히 상당한 과제로 남아 있습니다. 또한, 기존의 대부분의 비디오 편집 방법은 주로 시각적 콘텐츠를 변경하는 데 초점을 맞추고 있으며, 모션 편집에 관한 연구는 제한적입니다. 본 논문에서는 기존 방법과 차별화된 새로운 시도로서, 콘텐츠와 모션을 모두 지정함으로써 특정 영역에서 정밀한 비디오 편집을 가능하게 하는 ReVideo(비디오 리메이크)를 제안합니다. 콘텐츠 편집은 첫 번째 프레임을 수정함으로써 이루어지며, 궤적 기반의 모션 제어는 직관적인 사용자 상호작용 경험을 제공합니다. ReVideo는 콘텐츠와 모션 제어 간의 결합 및 학습 불균형을 해결하는 새로운 과제를 다룹니다. 이를 위해, 우리는 두 가지 측면을 점진적으로 분리하는 세 단계의 학습 전략을 개발했습니다. 또한, 다양한 샘플링 단계와 공간적 위치에서 콘텐츠와 모션 제어를 통합하기 위해 시공간 적응형 융합 모듈을 제안합니다. 광범위한 실험을 통해 우리의 ReVideo가 여러 정확한 비디오 편집 응용 분야에서 유망한 성능을 보여줌을 입증했습니다. 즉, (1) 모션을 유지하면서 비디오 콘텐츠를 지역적으로 변경, (2) 콘텐츠를 그대로 유지하고 새로운 모션 궤적을 사용자 정의, (3) 콘텐츠와 모션 궤적을 모두 수정하는 작업에서 뛰어난 성능을 보였습니다. 또한, 우리의 방법은 특별한 학습 없이도 이러한 응용을 다중 영역 편집으로 원활하게 확장할 수 있어 유연성과 견고성을 입증했습니다.
다중모드 대형 언어 모델(MLLM)에서 시각 인코더의 잠재력을 충분히 활용하고 있는가? 최근 MLLM의 다중모드 이해 능력에서의 뛰어난 성과는 학계와 산업계 모두로부터 폭넓은 관심을 받고 있다. 현재 MLLM 경쟁에서 초점은 주로 언어 측면에 맞춰져 있다. 더 크고 고품질의 지시 데이터셋의 등장과 더 큰 규모의 LLM의 참여를 목격하고 있지만, MLLM이 활용하는 시각 신호에 대한 관심은 상대적으로 적다. 이는 종종 고정된 시각 인코더에 의해 추출된 최종 고수준 특징으로 간주된다. 본 논문에서는 다층 시각 특징을 활용하여 기존 MLLM을 크게 향상시키는 간단하고 효과적이며 플러그 앤 플레이 방식의 시각-언어 연결자인 Dense Connector를 소개한다. 이는 최소한의 추가 계산 오버헤드만을 요구한다. 또한, 이미지로만 훈련된 우리의 모델은 비디오 이해에서도 놀라운 제로샷 능력을 보여준다. 다양한 시각 인코더, 이미지 해상도, 훈련 데이터셋 규모, 다양한 크기의 LLM(2.7B->70B), 그리고 다양한 MLLM 아키텍처(예: LLaVA 및 Mini-Gemini)에 걸친 실험 결과는 우리 접근법의 다양성과 확장성을 검증하며, 19개의 이미지 및 비디오 벤치마크에서 최첨단 성능을 달성했다. 이 연구가 향후 MLLM 개발에 유용한 경험을 제공하고 기본 모듈로 활용되기를 바란다.
잠재 확산 모델(LDMs)의 발전은 고해상도 이미지 생성에 혁명을 일으켰지만, 이러한 시스템의 핵심인 오토인코더의 설계 공간은 아직 충분히 탐구되지 않았습니다. 본 논문에서는 2D 이산 웨이블릿 변환을 활용하여 표준 변분 오토인코더(VAEs) 대비 확장성과 계산 효율성을 향상시키면서도 출력 품질을 희생하지 않는 LiteVAE라는 오토인코더 패밀리를 소개합니다. 또한 LiteVAE의 훈련 방법론과 디코더 아키텍처를 조사하고, 훈련 역학과 재구성 품질을 개선하는 여러 가지 개선 사항을 제안합니다. 우리의 기본 LiteVAE 모델은 현재 LDMs에서 사용되는 기존 VAEs와 동등한 품질을 유지하면서 인코더 매개변수를 6분의 1로 줄여 더 빠른 훈련과 더 낮은 GPU 메모리 요구 사항을 달성하며, 더 큰 모델은 모든 평가 지표(rFID, LPIPS, PSNR, SSIM)에서 비슷한 복잡도의 VAEs를 능가합니다.
대규모 언어 모델(LLM)의 추론 속도를 높이는 것은 인공지능 분야에서 중요한 과제입니다. 본 논문은 분산형 추측 추론(DSI)이라는 새로운 분산 추론 알고리즘을 소개하며, 이는 기존의 추측 추론(SI) [leviathan2023fast, chen2023accelerating, miao2023specinfer]과 전통적인 자기회귀 추론(non-SI)보다 이론적으로 더 빠른 것으로 입증되었습니다. 다른 SI 알고리즘과 마찬가지로 DSI는 고정된 LLM에서 작동하며, 추가적인 학습이나 아키텍처 수정이 필요 없으며, 목표 분포를 보존합니다. 기존의 SI 연구는 (non-SI 대비) 경험적인 속도 향상을 보여주었지만, 빠르고 정확한 드래프터 LLM이 필요했습니다. 실제로, 기성품 LLM은 충분히 빠르고 정확한 드래프터를 갖추지 못하는 경우가 많습니다. 우리는 이러한 간극을 보여주었습니다: 더 느리거나 덜 정확한 드래프터를 사용할 경우 SI는 non-SI보다 느려집니다. 우리는 이 간극을 해소하기 위해 DSI가 어떤 드래프터를 사용하더라도 SI와 non-SI보다 빠르다는 것을 증명했습니다. DSI는 목표 모델과 드래프터의 여러 인스턴스를 조율함으로써 SI보다 빠를 뿐만 아니라, SI로는 가속화할 수 없는 LLM도 지원합니다. 우리의 시뮬레이션은 현실적인 설정에서 기성품 LLM의 속도 향상을 보여줍니다: DSI는 SI보다 1.29-1.92배 빠릅니다.
디퓨전 모델은 이미지 생성 분야에서 큰 성공을 거두었으며, 그 백본이 U-Net에서 Vision Transformer로 진화해 왔습니다. 그러나 Transformer의 계산 비용은 토큰 수에 대해 2차적으로 증가하기 때문에, 고해상도 이미지를 다룰 때 상당한 어려움을 야기합니다. 본 연구에서는 State Space Model(SSM) 기반의 시퀀스 모델인 Mamba의 효율성과 디퓨전 모델의 표현력을 결합한 Diffusion Mamba(DiM)를 제안하여, 고해상도 이미지 합성을 효율적으로 수행합니다. Mamba가 2D 신호로 일반화되지 않는 문제를 해결하기 위해, 우리는 다방향 스캔, 각 행과 열 끝에 학습 가능한 패딩 토큰, 경량화된 지역 특징 강화 등 여러 아키텍처 설계를 도입했습니다. 우리의 DiM 아키텍처는 고해상도 이미지에 대한 추론 시간 효율성을 달성합니다. 또한, DiM을 사용한 고해상도 이미지 생성의 학습 효율성을 더욱 개선하기 위해, 저해상도 이미지(256×256)에서 DiM을 사전 학습한 후 고해상도 이미지(512×512)에서 미세 조정하는 "약한 학습에서 강한 학습으로(weak-to-strong)" 전략을 탐구했습니다. 더 나아가, 추가 미세 조정 없이 더 높은 해상도의 이미지(예: 1024×1024 및 1536×1536)를 생성할 수 있도록 학습 없는 업샘플링 전략을 탐구했습니다. 실험을 통해 우리의 DiM의 효과성과 효율성을 입증했습니다.
2차 학습 방법은 경사 하강법보다 더 나은 수렴 특성을 지니지만, 계산상의 오버헤드로 인해 대규모 학습에서는 실제로 거의 사용되지 않습니다. 이는 디지털 컴퓨터에 의해 부과된 하드웨어적 제한으로 볼 수 있습니다. 본 연구에서는 적절한 하드웨어를 사용할 때, 2차 방법인 자연 경사 하강법(NGD)이 1차 방법과 유사한 계산 복잡도를 가질 수 있음을 보여줍니다. 우리는 특정 매개변수 영역에서 NGD와 동등하지만, 비용이 많이 드는 선형 시스템 해결을 피하는 새로운 하이브리드 디지털-아날로그 신경망 학습 알고리즘을 제시합니다. 이 알고리즘은 평형 상태의 아날로그 시스템의 열역학적 특성을 활용하므로, 아날로그 열역학 컴퓨터가 필요합니다. 학습은 하이브리드 디지털-아날로그 루프에서 이루어지며, 아날로그 동역학이 진행되는 동안 주어진 시간 간격으로 경사와 피셔 정보 행렬(또는 다른 양의 준정부호 곡률 행렬)이 계산됩니다. 우리는 이 접근법이 분류 작업과 언어 모델 미세 조정 작업에서 최신 디지털 1차 및 2차 학습 방법을 능가함을 수치적으로 입증합니다.
최근 연구들은 확산 모델을 효율적인 단일 단계 생성기로 증류하는 데 유망한 결과를 보여주었습니다. 이 중 분포 매칭 증류(Distribution Matching Distillation, DMD)는 교사 모델의 샘플링 궤적과 일대일 대응을 강제하지 않으면서도 분포 수준에서 교사 모델과 일치하는 단일 단계 생성기를 생성합니다. 그러나 안정적인 학습을 보장하기 위해 DMD는 결정론적 샘플러를 사용하여 교사 모델이 생성한 많은 수의 노이즈-이미지 쌍을 기반으로 추가적인 회귀 손실을 계산해야 합니다. 이는 대규모 텍스트-이미지 합성에 비용이 많이 들며, 학생 모델의 품질을 교사 모델의 원래 샘플링 경로에 지나치게 의존하게 만드는 한계가 있습니다. 우리는 이러한 한계를 해결하고 DMD 학습을 개선하는 DMD2 기술 세트를 소개합니다. 먼저, 회귀 손실과 비용이 많이 드는 데이터셋 구축의 필요성을 제거합니다. 우리는 이로 인한 불안정성이 가짜 비평가가 생성된 샘플의 분포를 정확하게 추정하지 못하기 때문임을 보이고, 이를 해결하기 위해 두 가지 시간 척도 업데이트 규칙을 제안합니다. 두 번째로, 증류 과정에 GAN 손실을 통합하여 생성된 샘플과 실제 이미지를 구별합니다. 이를 통해 학생 모델을 실제 데이터로 학습시켜 교사 모델의 불완전한 실제 점수 추정을 완화하고 품질을 향상시킵니다. 마지막으로, 다단계 샘플링을 가능하게 하기 위해 학습 절차를 수정합니다. 이 설정에서 학습-추론 입력 불일치 문제를 식별하고, 학습 시간 동안 추론 시 생성기 샘플을 시뮬레이션함으로써 이를 해결합니다. 종합적으로, 우리의 개선 사항들은 단일 단계 이미지 생성에서 새로운 벤치마크를 설정하며, ImageNet-64x64에서 1.28, 제로샷 COCO 2014에서 8.35의 FID 점수를 달성하여 추론 비용을 500배 줄이면서도 원래 교사 모델을 능가합니다. 또한, 우리의 접근법이 SDXL을 증류하여 메가픽셀 이미지를 생성할 수 있음을 보여주며, 몇 단계 방법 중에서도 탁월한 시각적 품질을 입증합니다.
최근 몇 년간, 현실적인 생성 결과와 다양한 맞춤형 애플리케이션으로 인해 확산 기반 생성 모델은 시각 및 오디오 생성 분야에서 큰 주목을 받고 있습니다. 텍스트2이미지 또는 텍스트2오디오 생성의 상당한 발전과 비교하여, 오디오2시각 또는 시각2오디오 생성에 대한 연구는 상대적으로 더디게 진행되어 왔습니다. 최근의 오디오-시각 생성 방법들은 대규모 언어 모델이나 조합 가능한 확산 모델에 의존하는 경우가 많습니다. 본 논문에서는 오디오-시각 생성을 위한 또 다른 거대 모델을 설계하는 대신, 다중 모달 생성에서 충분히 탐구되지 않은 간단하고 경량화된 생성 트랜스포머가 이미지2오디오 생성에서 우수한 결과를 달성할 수 있음을 보여줍니다. 이 트랜스포머는 이산 오디오 및 시각 Vector-Quantized GAN 공간에서 작동하며, 마스크 노이즈 제거 방식으로 학습됩니다. 학습 후, 추가 학습이나 수정 없이도 즉시 사용 가능한 classifier-free guidance를 통해 더 나은 성능을 달성할 수 있습니다. 트랜스포머 모델은 모달리티 대칭적이므로, 오디오2이미지 생성 및 공동 생성에도 직접 적용할 수 있습니다. 실험에서 우리는 이 간단한 방법이 최근의 이미지2오디오 생성 방법들을 능가함을 보여줍니다. 생성된 오디오 샘플은 https://docs.google.com/presentation/d/1ZtC0SeblKkut4XJcRaDsSTuCRIXB3ypxmSi7HTY3IyQ에서 확인할 수 있습니다.
멀티모달 대형 언어 모델(MLLMs)은 인공 일반 지능(AGI) 탐구에 있어 핵심적인 역할을 하는 것으로 널리 인정받고 있습니다. MLLMs의 핵심은 크로스모달 정렬 능력을 달성하는 데 있습니다. 이를 위해 현재의 MLLMs는 일반적으로 두 단계의 학습 패러다임을 따릅니다: 사전 학습 단계와 지시어 튜닝 단계입니다. 이러한 모델들이 성공을 거두었음에도 불구하고, 정렬 능력 모델링에는 몇 가지 단점이 존재합니다. 첫째, 사전 학습 단계에서 모델은 모든 이미지-텍스트 쌍이 균일하게 정렬되어 있다고 가정하지만, 실제로는 서로 다른 이미지-텍스트 쌍 간의 정렬 정도가 일관되지 않습니다. 둘째, 현재 미세 조정에 사용되는 지시어들은 다양한 작업을 포함하고 있으며, 서로 다른 작업의 지시어들은 일반적으로 서로 다른 수준의 정렬 능력을 요구하지만, 기존의 MLLMs는 이러한 차별화된 정렬 요구를 간과했습니다. 이러한 문제를 해결하기 위해, 우리는 새로운 멀티모달 대형 언어 모델인 AlignGPT를 제안합니다. 사전 학습 단계에서 모든 이미지-텍스트 쌍을 동일하게 취급하는 대신, 서로 다른 이미지-텍스트 쌍에 대해 서로 다른 수준의 정렬 능력을 부여합니다. 그런 다음, 지시어 튜닝 단계에서는 이러한 서로 다른 수준의 정렬 능력을 적응적으로 결합하여 다양한 지시어의 동적 정렬 요구를 충족시킵니다. 광범위한 실험 결과는 우리의 모델이 12개의 벤치마크에서 경쟁력 있는 성능을 달성함을 보여줍니다.
사용자가 제공한 참조 이미지에서 정체성을 보존한 이미지를 생성하기 위해 확산 모델을 맞춤화하는 것은 흥미로운 새로운 문제입니다. 일반적으로 널리 사용되는 접근 방식은 정체성 보존을 위해 광범위한 도메인 특정 이미지에 대한 학습을 필요로 하며, 이는 다양한 사용 사례에서 유연성이 부족합니다. 이 문제를 해결하기 위해, 우리는 기존 분류기를 사용하여 확산 모델을 조종하는 학습이 필요 없는 기술인 분류기 가이던스를 활용하여 개인화된 이미지 생성을 연구합니다. 우리의 연구는 최근의 정류 흐름(rectified flow) 프레임워크를 기반으로, 특수 분류기를 요구하는 기존의 분류기 가이던스의 주요 한계를 간단한 고정점 해법으로 해결할 수 있음을 보여줍니다. 이를 통해 기성 이미지 판별기를 사용하여 유연한 개인화가 가능해집니다. 또한, 참조 흐름 궤적에 고정될 때 이 해법 과정은 안정적이며 수렴이 보장됩니다. 이 방법은 다양한 기성 이미지 판별기를 사용한 정류 흐름에 구현되어 인간 얼굴, 생물체, 특정 물체에 대해 우수한 개인화 결과를 제공합니다. 코드는 https://github.com/feifeiobama/RectifID에서 확인할 수 있습니다.
우리는 비디오 생성 작업을 위해 3D 카메라 모션을 조건 신호로 포함하도록 멀티모달 트랜스포머를 확장합니다. 생성적 비디오 모델은 점점 더 강력해지고 있으며, 이에 따라 이러한 모델의 출력을 제어하는 방법에 대한 연구 노력이 집중되고 있습니다. 우리는 생성된 비디오에 대해 3차원 카메라 움직임의 인코딩을 조건으로 하여 생성적 비디오 방법에 가상 3D 카메라 제어를 추가할 것을 제안합니다. 결과는 (1) 단일 프레임과 카메라 신호로부터 시작하여 비디오 생성 중에 카메라를 성공적으로 제어할 수 있음을 보여주며, (2) 전통적인 컴퓨터 비전 방법을 사용하여 생성된 3D 카메라 경로의 정확성을 입증합니다.
이미지 생성 모델을 파인튜닝 없이 다양한 데이터셋에 적응시키는 과제를 연구합니다. 이를 위해, 조건 이미지의 의미를 기반으로 이미지를 생성할 수 있는 이미지 조건부 확산 모델인 Semantica를 소개합니다. Semantica는 웹 규모의 이미지 쌍으로만 학습되며, 웹페이지에서 무작위로 선택된 이미지를 조건 입력으로 받아 동일한 웹페이지의 또 다른 무작위 이미지를 모델링합니다. 우리의 실험은 사전 학습된 이미지 인코더의 표현력과 고품질 이미지 생성을 위한 의미 기반 데이터 필터링의 필요성을 강조합니다. 일단 학습이 완료되면, 단순히 해당 데이터셋의 이미지를 입력으로 사용하여 새로운 데이터셋에서 적응적으로 이미지를 생성할 수 있습니다. 우리는 Semantica의 전이 특성을 ImageNet, LSUN Churches, LSUN Bedroom 및 SUN397 데이터셋에서 연구합니다.
Neural Radiance Fields(NeRFs)는 일반적으로 시점 변화에 따라 외관이 급격히 변하는 고광택 물체의 재구성 및 렌더링에 어려움을 겪습니다. 최근 연구들은 NeRF가 원거리 환경 조명의 상세한 고광택 외관을 렌더링하는 능력을 향상시켰지만, 근접한 콘텐츠의 일관된 반사를 합성하는 데는 여전히 한계가 있습니다. 더욱이, 이러한 기술들은 방사광을 모델링하기 위해 계산 비용이 큰 대형 신경망에 의존하므로 최적화 및 렌더링 속도가 심각하게 제한됩니다. 우리는 이러한 문제를 레이 트레이싱 기반의 접근법으로 해결합니다: 각 카메라 레이를 따라 위치한 점에서 시점에 따라 달라지는 방사광을 비용이 많이 드는 신경망에 질의하는 대신, 우리의 모델은 이러한 점들에서 반사 레이를 발사하고 이를 NeRF 표현을 통해 추적하여 특징 벡터를 렌더링한 후, 이를 작고 비용이 적게 드는 네트워크를 통해 색상으로 디코딩합니다. 우리는 우리의 모델이 광택이 있는 물체가 포함된 장면의 시점 합성에서 기존 방법들을 능가하며, 실제 장면에서 사실적인 고광택 외관과 반사를 합성할 수 있는 유일한 기존 NeRF 방법임을 보여줍니다. 또한, 이는 최신 시점 합성 모델과 비슷한 최적화 시간을 요구합니다.
광택이 있는 금속이나 유광 페인트와 같은 반사체의 새로운 시점 합성은 여전히 큰 도전 과제로 남아 있습니다. 광택 있는 외관뿐만 아니라 환경 내 다른 물체의 반사와 같은 전역 조명 효과도 장면을 충실히 재현하기 위한 중요한 요소입니다. 본 논문에서는 반사체 렌더링을 위한 신경 방사장(NeRF)의 시점 의존적 외관 인코딩인 Neural Directional Encoding(NDE)을 제안합니다. NDE는 특징 그리드 기반 공간 인코딩 개념을 각도 영역으로 전환하여 고주파 각도 신호 모델링 능력을 크게 향상시킵니다. 기존의 각도 입력만 사용하는 인코딩 함수와 달리, NDE는 공간 특징을 콘 트레이싱하여 공간적으로 변화하는 방향 인코딩을 얻음으로써 어려운 상호 반사 효과를 해결합니다. 합성 및 실제 데이터셋에 대한 광범위한 실험을 통해 NDE를 적용한 NeRF 모델이 (1) 반사체의 시점 합성에서 최첨단 기술을 능가하며, (2) 작은 네트워크로도 실시간 추론이 가능함을 보여줍니다. 프로젝트 웹페이지와 소스 코드는 https://lwwu2.github.io/nde/에서 확인할 수 있습니다.
본 논문에서는 피어-투-피어 통신 시나리오를 대상으로 저예산 및 높은 현실감을 갖춘 양방향 텔레프레즌스 시스템인 Tele-Aloha를 소개한다. 기존 시스템과 비교하여, Tele-Aloha는 단 4개의 희소 RGB 카메라, 하나의 소비자용 GPU, 그리고 하나의 오토스테레오스코픽 스크린만을 사용하여 고해상도(2048x2048), 실시간(30 fps), 저지연(150ms 미만), 그리고 견고한 원격 통신을 달성한다. Tele-Aloha의 핵심으로, 상반신을 위한 효율적인 새로운 뷰 합성 알고리즘을 제안한다. 먼저, 견고한 기하학적 단서를 얻기 위해 캐스케이드 방식의 디스패리티 추정기를 설계한다. 추가적으로, 가우시안 스플래팅을 통한 신경망 래스터라이저를 도입하여 잠재 특징을 타겟 뷰에 투영하고 이를 감소된 해상도로 디코딩한다. 또한, 고품질로 캡처된 데이터를 활용하여 가중치 블렌딩 메커니즘을 통해 디코딩된 이미지를 2K의 최종 해상도로 정제한다. 세계 최고 수준의 오토스테레오스코픽 디스플레이와 저지연 아이리스 추적 기술을 활용함으로써, 사용자는 웨어러블 헤드 마운트 디스플레이 장치 없이도 강력한 3차원 감각을 경험할 수 있다. 종합적으로, 우리의 텔레프레즌스 시스템은 실제 실험에서 공동 현존감을 입증하며, 차세대 통신 기술에 영감을 제공한다.