Pantheon360: 3D 인식 360도 비디오 확산을 통한 디지털 트윈 생성 정복
Pantheon360: Taming Digital Twin Generation via 3D-Aware 360° Video Diffusion
May 25, 2026
저자: Ting-Hsuan Chen, Ying-Huan Chen, Tao Tu, Jie-Ying Lee, Cho-Ying Wu, Fangzhou Lin, Hengyuan Zhang, David Paz, Xinyu Huang, Yuliang Guo, Yu-Lun Liu, Yue Wang, Liu Ren
cs.AI
초록
비디오로부터 완전한 디지털 트윈을 생성하려면 정밀한 카메라 제어, 전역 장면 커버리지, 그리고 엄격한 공간-시간 일관성 제약이 필요하며, 이는 제한된 시야(FoV)로 인해 원근 비디오 생성기에게 여전히 어려운 과제입니다. 좁은 시야는 긴 경로나 다중 시점 궤적을 강제하여, 시점 간 불일치와 시간적 드리프트를 증폭시킵니다. 우리는 360° 비디오 생성이 자연스러운 해결책을 제공한다고 주장합니다: 파노라마 커버리지는 궤적 설계를 단순화하고 일관성 유지를 위한 강력한 전역 맥락을 제공합니다. 본 논문에서는 Pantheon360: 3D 인지 360° 비디오 확산을 통한 디지털 트윈 생성 제어를 소개합니다. 이는 희소 360° 입력으로부터 고충실도 비디오를 합성하는 제어 가능한 360° 비디오 생성 프레임워크입니다. 핵심 아이디어는 입력으로부터 재구성된 명시적 3D 캐시로, 이는 사용자 정의 카메라 경로에 대한 기하학적 지지 구조 역할을 합니다. 이를 통해 확산 모델은 사실적인 질감 개선에 집중할 수 있으며, 3D 캐시는 전역 기하학적 일관성을 강제합니다. 실험 결과, Pantheon360은 뛰어난 시각적 품질과 비할 데 없는 기하학적 일관성을 달성하여, 다운스트림 시뮬레이션 및 디지털 트윈 애플리케이션을 위한 안정적이고 유연한 360° 장면 생성을 가능하게 합니다.
English
Generating complete digital twins from videos requires precise camera control, global scene coverage, and strict spatial-temporal consistency constraints that remain challenging for perspective video generators due to their limited field of view (FoV). Their narrow FoV forces long or multi-view trajectories, amplifying cross-view inconsistency and temporal drift. We argue that 360° video generation offers a natural solution: panoramic coverage simplifies trajectory design and provides a strong global context for maintaining coherence. We introduce Pantheon360: Taming Digital Twin Generation via 3D-Aware 360° Video Diffusion, a controllable 360° video generation framework that synthesizes high-fidelity videos from sparse 360° inputs. The key idea is an explicit 3D Cache, reconstructed from the input, which serves as a geometric scaffold for any user-defined camera path. This allows the diffusion model to focus on photorealistic texture refinement while the 3D Cache enforces global geometric consistency. Experiments show that Pantheon360 achieves superior visual quality and unmatched geometric coherence, enabling reliable and flexible 360° scene generation for downstream simulation and digital-twin applications.