ChatPaper.aiChatPaper

Pantheon360: Domando la generación de gemelos digitales mediante difusión de video 360° con conciencia 3D

Pantheon360: Taming Digital Twin Generation via 3D-Aware 360° Video Diffusion

May 25, 2026
Autores: Ting-Hsuan Chen, Ying-Huan Chen, Tao Tu, Jie-Ying Lee, Cho-Ying Wu, Fangzhou Lin, Hengyuan Zhang, David Paz, Xinyu Huang, Yuliang Guo, Yu-Lun Liu, Yue Wang, Liu Ren
cs.AI

Resumen

Generar gemelos digitales completos a partir de videos requiere un control preciso de la cámara, una cobertura global de la escena y estrictas restricciones de consistencia espacio-temporal que siguen siendo un desafío para los generadores de video en perspectiva debido a su limitado campo de visión (FOV). Su estrecho FOV obliga a trayectorias largas o multivista, amplificando la inconsistencia entre vistas y la deriva temporal. Sostenemos que la generación de video en 360° ofrece una solución natural: la cobertura panorámica simplifica el diseño de trayectorias y proporciona un contexto global sólido para mantener la coherencia. Presentamos Pantheon360: Domesticando la Generación de Gemelos Digitales mediante Difusión de Video 360° Consciente en 3D, un marco de generación de video 360° controlable que sintetiza videos de alta fidelidad a partir de entradas 360° dispersas. La idea clave es una Caché 3D explícita, reconstruida a partir de la entrada, que sirve como andamio geométrico para cualquier trayectoria de cámara definida por el usuario. Esto permite que el modelo de difusión se centre en el refinamiento fotorrealista de texturas, mientras que la Caché 3D impone una consistencia geométrica global. Los experimentos muestran que Pantheon360 logra una calidad visual superior y una coherencia geométrica inigualable, permitiendo una generación confiable y flexible de escenas 360° para aplicaciones posteriores de simulación y gemelos digitales.
English
Generating complete digital twins from videos requires precise camera control, global scene coverage, and strict spatial-temporal consistency constraints that remain challenging for perspective video generators due to their limited field of view (FoV). Their narrow FoV forces long or multi-view trajectories, amplifying cross-view inconsistency and temporal drift. We argue that 360° video generation offers a natural solution: panoramic coverage simplifies trajectory design and provides a strong global context for maintaining coherence. We introduce Pantheon360: Taming Digital Twin Generation via 3D-Aware 360° Video Diffusion, a controllable 360° video generation framework that synthesizes high-fidelity videos from sparse 360° inputs. The key idea is an explicit 3D Cache, reconstructed from the input, which serves as a geometric scaffold for any user-defined camera path. This allows the diffusion model to focus on photorealistic texture refinement while the 3D Cache enforces global geometric consistency. Experiments show that Pantheon360 achieves superior visual quality and unmatched geometric coherence, enabling reliable and flexible 360° scene generation for downstream simulation and digital-twin applications.