ChatPaper.aiChatPaper

Pantheon360: Zähmung der Generierung digitaler Zwillinge durch 3D-bewusste 360-Grad-Video-Diffusion

Pantheon360: Taming Digital Twin Generation via 3D-Aware 360° Video Diffusion

May 25, 2026
Autoren: Ting-Hsuan Chen, Ying-Huan Chen, Tao Tu, Jie-Ying Lee, Cho-Ying Wu, Fangzhou Lin, Hengyuan Zhang, David Paz, Xinyu Huang, Yuliang Guo, Yu-Lun Liu, Yue Wang, Liu Ren
cs.AI

Zusammenfassung

Die Erzeugung vollständiger digitaler Zwillinge aus Videos erfordert präzise Kamerasteuerung, globale Szenenabdeckung sowie strenge räumlich-zeitliche Konsistenzbedingungen, die für perspektivische Videogeneratoren aufgrund ihres begrenzten Sichtfelds (FoV) eine Herausforderung darstellen. Ihr enger Sichtwinkel erzwingt lange oder multiview-Trajektorien, was ansichtsübergreifende Inkonsistenzen und zeitliche Drift verstärkt. Wir argumentieren, dass die 360°-Videoerzeugung eine natürliche Lösung bietet: Panoramische Abdeckung vereinfacht das Trajektoriendesign und liefert einen starken globalen Kontext zur Wahrung der Kohärenz. Wir stellen Pantheon360 vor: Zähmung der Erzeugung digitaler Zwillinge durch 3D-bewusste 360°-Videodiffusion – ein steuerbares 360°-Videoerzeugungsframework, das aus spärlichen 360°-Eingaben hochtreue Videos synthetisiert. Der Kernansatz ist ein expliziter 3D-Cache, der aus der Eingabe rekonstruiert wird und als geometrisches Gerüst für jeden benutzerdefinierten Kamerapfad dient. Dadurch kann sich das Diffusionsmodell auf die photorealisitische Texturverfeinerung konzentrieren, während der 3D-Cache die globale geometrische Konsist erzwingt. Experimente zeigen, dass Pantheon360 überlegene visuelle Qualität und beispiellose geometrische Kohärenz erreicht und so eine zuverlässige und flexible 360°-Szenenerzeugung für nachgeschaltete Simulationen und Digital-Twin-Anwendungen ermöglicht.
English
Generating complete digital twins from videos requires precise camera control, global scene coverage, and strict spatial-temporal consistency constraints that remain challenging for perspective video generators due to their limited field of view (FoV). Their narrow FoV forces long or multi-view trajectories, amplifying cross-view inconsistency and temporal drift. We argue that 360° video generation offers a natural solution: panoramic coverage simplifies trajectory design and provides a strong global context for maintaining coherence. We introduce Pantheon360: Taming Digital Twin Generation via 3D-Aware 360° Video Diffusion, a controllable 360° video generation framework that synthesizes high-fidelity videos from sparse 360° inputs. The key idea is an explicit 3D Cache, reconstructed from the input, which serves as a geometric scaffold for any user-defined camera path. This allows the diffusion model to focus on photorealistic texture refinement while the 3D Cache enforces global geometric consistency. Experiments show that Pantheon360 achieves superior visual quality and unmatched geometric coherence, enabling reliable and flexible 360° scene generation for downstream simulation and digital-twin applications.