Pantheon360: Укрощение генерации цифровых двойников с помощью трехмерно-осведомленной диффузии 360-градусного видео
Pantheon360: Taming Digital Twin Generation via 3D-Aware 360° Video Diffusion
May 25, 2026
Авторы: Ting-Hsuan Chen, Ying-Huan Chen, Tao Tu, Jie-Ying Lee, Cho-Ying Wu, Fangzhou Lin, Hengyuan Zhang, David Paz, Xinyu Huang, Yuliang Guo, Yu-Lun Liu, Yue Wang, Liu Ren
cs.AI
Аннотация
Генерация полных цифровых двойников на основе видео требует точного управления камерой, глобального охвата сцены и строгих ограничений пространственно-временной согласованности, что остается сложной задачей для генераторов перспективного видео из-за их ограниченного поля зрения (FOV). Их узкое поле зрения вынуждает использовать длинные или многовидовые траектории, усиливая несогласованность между ракурсами и временной дрейф. Мы утверждаем, что генерация 360-градусного видео предлагает естественное решение: панорамный охват упрощает проектирование траекторий и обеспечивает сильный глобальный контекст для поддержания когерентности. Мы представляем Pantheon360: Укрощение генерации цифровых двойников с помощью 3D-осведомленной 360-градусной видеодиффузии — управляемый фреймворк генерации 360° видео, который синтезирует высококачественные видео на основе разреженных 360-градусных входных данных. Ключевая идея — явный 3D-кеш, реконструированный из входных данных, который служит геометрическим каркасом для любого заданного пользователем пути камеры. Это позволяет диффузионной модели сосредоточиться на фотореалистичном улучшении текстуры, в то время как 3D-кеш обеспечивает глобальную геометрическую согласованность. Эксперименты показывают, что Pantheon360 достигает превосходного визуального качества и непревзойденной геометрической согласованности, обеспечивая надежную и гибкую генерацию 360-градусных сцен для последующего моделирования и приложений цифровых двойников.
English
Generating complete digital twins from videos requires precise camera control, global scene coverage, and strict spatial-temporal consistency constraints that remain challenging for perspective video generators due to their limited field of view (FoV). Their narrow FoV forces long or multi-view trajectories, amplifying cross-view inconsistency and temporal drift. We argue that 360° video generation offers a natural solution: panoramic coverage simplifies trajectory design and provides a strong global context for maintaining coherence. We introduce Pantheon360: Taming Digital Twin Generation via 3D-Aware 360° Video Diffusion, a controllable 360° video generation framework that synthesizes high-fidelity videos from sparse 360° inputs. The key idea is an explicit 3D Cache, reconstructed from the input, which serves as a geometric scaffold for any user-defined camera path. This allows the diffusion model to focus on photorealistic texture refinement while the 3D Cache enforces global geometric consistency. Experiments show that Pantheon360 achieves superior visual quality and unmatched geometric coherence, enabling reliable and flexible 360° scene generation for downstream simulation and digital-twin applications.