Pantheon360: Dominando a Geração de Gêmeos Digitais via Difusão de Vídeo 360° com Consciência 3D
Pantheon360: Taming Digital Twin Generation via 3D-Aware 360° Video Diffusion
May 25, 2026
Autores: Ting-Hsuan Chen, Ying-Huan Chen, Tao Tu, Jie-Ying Lee, Cho-Ying Wu, Fangzhou Lin, Hengyuan Zhang, David Paz, Xinyu Huang, Yuliang Guo, Yu-Lun Liu, Yue Wang, Liu Ren
cs.AI
Resumo
Gerar gêmeos digitais completos a partir de vídeos requer controle preciso da câmera, cobertura global da cena e restrições rigorosas de consistência espaço-temporal, que permanecem desafiadoras para geradores de vídeo em perspectiva devido ao seu campo de visão (FoV) limitado. Seu FoV estreito força trajetórias longas ou multivisuais, amplificando a inconsistência entre vistas e o desvio temporal. Argumentamos que a geração de vídeos em 360° oferece uma solução natural: a cobertura panorâmica simplifica o design de trajetórias e fornece um contexto global robusto para manter a coerência. Apresentamos o Pantheon360: Dominando a Geração de Gêmeos Digitais via Difusão de Vídeos 360° Consciente em 3D, uma estrutura controlável de geração de vídeos em 360° que sintetiza vídeos de alta fidelidade a partir de entradas 360° esparsas. A ideia central é um Cache 3D explícito, reconstruído a partir da entrada, que serve como uma estrutura geométrica para qualquer trajetória de câmera definida pelo usuário. Isso permite que o modelo de difusão se concentre no refinamento fotorrealista de texturas, enquanto o Cache 3D impõe consistência geométrica global. Experimentos mostram que o Pantheon360 alcança qualidade visual superior e coerência geométrica incomparável, possibilitando a geração confiável e flexível de cenas em 360° para aplicações downstream de simulação e gêmeos digitais.
English
Generating complete digital twins from videos requires precise camera control, global scene coverage, and strict spatial-temporal consistency constraints that remain challenging for perspective video generators due to their limited field of view (FoV). Their narrow FoV forces long or multi-view trajectories, amplifying cross-view inconsistency and temporal drift. We argue that 360° video generation offers a natural solution: panoramic coverage simplifies trajectory design and provides a strong global context for maintaining coherence. We introduce Pantheon360: Taming Digital Twin Generation via 3D-Aware 360° Video Diffusion, a controllable 360° video generation framework that synthesizes high-fidelity videos from sparse 360° inputs. The key idea is an explicit 3D Cache, reconstructed from the input, which serves as a geometric scaffold for any user-defined camera path. This allows the diffusion model to focus on photorealistic texture refinement while the 3D Cache enforces global geometric consistency. Experiments show that Pantheon360 achieves superior visual quality and unmatched geometric coherence, enabling reliable and flexible 360° scene generation for downstream simulation and digital-twin applications.