Pantheon360 : Maîtriser la génération de jumeaux numériques via une diffusion vidéo 360° consciente de la 3D

Résumé

La génération complète de jumeaux numériques à partir de vidéos nécessite un contrôle précis de la caméra, une couverture globale de la scène et des contraintes strictes de cohérence spatio-temporelle, qui restent difficiles à atteindre pour les générateurs de vidéos perspectives en raison de leur champ de vision (FOV) limité. Leur FOV étroit impose des trajectoires longues ou multi-vues, amplifiant les incohérences inter-vues et la dérive temporelle. Nous soutenons que la génération de vidéos à 360° offre une solution naturelle : la couverture panoramique simplifie la conception des trajectoires et fournit un contexte global solide pour maintenir la cohérence. Nous présentons Pantheon360 : Apprivoiser la génération de jumeaux numériques via la diffusion vidéo à 360° tenant compte de la 3D, un cadre de génération de vidéos à 360° contrôlable qui synthétise des vidéos haute fidélité à partir d'entrées 360° clairsemées. L'idée clé est un Cache 3D explicite, reconstruit à partir de l'entrée, qui sert d'échafaudage géométrique pour tout chemin de caméra défini par l'utilisateur. Cela permet au modèle de diffusion de se concentrer sur le raffinement photoréaliste des textures tandis que le Cache 3D impose une cohérence géométrique globale. Les expériences montrent que Pantheon360 atteint une qualité visuelle supérieure et une cohérence géométrique inégalée, permettant une génération de scènes à 360° fiable et flexible pour les applications en aval de simulation et de jumeaux numériques.

English

Generating complete digital twins from videos requires precise camera control, global scene coverage, and strict spatial-temporal consistency constraints that remain challenging for perspective video generators due to their limited field of view (FoV). Their narrow FoV forces long or multi-view trajectories, amplifying cross-view inconsistency and temporal drift. We argue that 360° video generation offers a natural solution: panoramic coverage simplifies trajectory design and provides a strong global context for maintaining coherence. We introduce Pantheon360: Taming Digital Twin Generation via 3D-Aware 360° Video Diffusion, a controllable 360° video generation framework that synthesizes high-fidelity videos from sparse 360° inputs. The key idea is an explicit 3D Cache, reconstructed from the input, which serves as a geometric scaffold for any user-defined camera path. This allows the diffusion model to focus on photorealistic texture refinement while the 3D Cache enforces global geometric consistency. Experiments show that Pantheon360 achieves superior visual quality and unmatched geometric coherence, enabling reliable and flexible 360° scene generation for downstream simulation and digital-twin applications.