Pantheon360: Het temmen van digitale tweelinggeneratie via 3D-bewuste 360° videodiffusie
Pantheon360: Taming Digital Twin Generation via 3D-Aware 360° Video Diffusion
May 25, 2026
Auteurs: Ting-Hsuan Chen, Ying-Huan Chen, Tao Tu, Jie-Ying Lee, Cho-Ying Wu, Fangzhou Lin, Hengyuan Zhang, David Paz, Xinyu Huang, Yuliang Guo, Yu-Lun Liu, Yue Wang, Liu Ren
cs.AI
Samenvatting
Het genereren van complete digitale tweelingen uit video's vereist nauwkeurige camerabesturing, wereldwijde scènedekking en strikte ruimtelijk-temporele consistentiebeperkingen die uitdagend blijven voor perspectiefvideogeneratoren vanwege hun beperkte gezichtsveld (FoV). Hun smalle gezichtsveld dwingt tot lange of multi-view trajecten, wat cross-view inconsistentie en temporele drift versterkt. Wij stellen dat 360° videogeneratie een natuurlijke oplossing biedt: panoramische dekking vereenvoudigt het trajectontwerp en biedt een sterke mondiale context voor het behouden van coherentie. We introduceren Pantheon360: het temmen van digitale tweelinggeneratie via 3D-bewuste 360° videodiffusie, een beheersbaar raamwerk voor 360° videogeneratie dat hoogwaardige video's synthetiseert uit spaarzame 360° invoer. Het kernidee is een expliciete 3D-cache, gereconstrueerd uit de invoer, die dient als geometrische steiger voor elk door de gebruiker gedefinieerd camerapad. Hierdoor kan het diffusiemodel zich richten op fotorealistische textuurverfijning, terwijl de 3D-cache wereldwijde geometrische consistentie afdwingt. Experimenten tonen aan dat Pantheon360 superieure visuele kwaliteit en ongeëvenaarde geometrische coherentie bereikt, wat betrouwbare en flexibele 360° scènegeneratie mogelijk maakt voor stroomafwaartse simulatie- en digitale tweelingtoepassingen.
English
Generating complete digital twins from videos requires precise camera control, global scene coverage, and strict spatial-temporal consistency constraints that remain challenging for perspective video generators due to their limited field of view (FoV). Their narrow FoV forces long or multi-view trajectories, amplifying cross-view inconsistency and temporal drift. We argue that 360° video generation offers a natural solution: panoramic coverage simplifies trajectory design and provides a strong global context for maintaining coherence. We introduce Pantheon360: Taming Digital Twin Generation via 3D-Aware 360° Video Diffusion, a controllable 360° video generation framework that synthesizes high-fidelity videos from sparse 360° inputs. The key idea is an explicit 3D Cache, reconstructed from the input, which serves as a geometric scaffold for any user-defined camera path. This allows the diffusion model to focus on photorealistic texture refinement while the 3D Cache enforces global geometric consistency. Experiments show that Pantheon360 achieves superior visual quality and unmatched geometric coherence, enabling reliable and flexible 360° scene generation for downstream simulation and digital-twin applications.