ChatPaper.aiChatPaper

HoloTime: ビデオ拡散モデルを制御してパノラマ4Dシーン生成を実現

HoloTime: Taming Video Diffusion Models for Panoramic 4D Scene Generation

April 30, 2025
著者: Haiyang Zhou, Wangbo Yu, Jiawen Guan, Xinhua Cheng, Yonghong Tian, Li Yuan
cs.AI

要旨

拡散モデルの急速な進展は、ユーザー体験にシーンレベルの4Dアセットを必要とするVRおよびAR技術の応用に革命をもたらす可能性を秘めています。しかしながら、既存の拡散モデルは主に静的な3Dシーンやオブジェクトレベルのダイナミクスのモデリングに集中しており、真に没入感のある体験を提供する能力が制限されています。この問題を解決するため、我々はHoloTimeを提案します。これは、単一のプロンプトまたは参照画像からパノラマ動画を生成するビデオ拡散モデルと、生成されたパノラマ動画をシームレスに4Dアセットに変換する360度4Dシーン再構成手法を統合したフレームワークであり、ユーザーに完全に没入感のある4D体験を可能にします。具体的には、高忠実度のパノラマ動画を生成するためにビデオ拡散モデルを制御するため、我々は360Worldデータセットを導入しました。これは、下流の4Dシーン再構成タスクに適した初の包括的なパノラマ動画のコレクションです。このキュレーションデータセットを用いて、我々はPanoramic Animatorを提案します。これは、パノラマ画像を高品質なパノラマ動画に変換する二段階の画像からビデオへの拡散モデルです。その後、我々はPanoramic Space-Time Reconstructionを提示します。これは、空間時間深度推定手法を活用して生成されたパノラマ動画を4D点群に変換し、空間的および時間的に一貫した4Dシーンを再構成するための包括的な4D Gaussian Splatting表現の最適化を可能にします。我々の手法の有効性を検証するため、既存の手法との比較分析を行い、パノラマ動画生成および4Dシーン再構成の両方において優位性を示しました。これは、我々の手法がより魅力的で現実的な没入環境を作り出す能力を実証し、それによってVRおよびARアプリケーションにおけるユーザー体験を向上させることを示しています。
English
The rapid advancement of diffusion models holds the promise of revolutionizing the application of VR and AR technologies, which typically require scene-level 4D assets for user experience. Nonetheless, existing diffusion models predominantly concentrate on modeling static 3D scenes or object-level dynamics, constraining their capacity to provide truly immersive experiences. To address this issue, we propose HoloTime, a framework that integrates video diffusion models to generate panoramic videos from a single prompt or reference image, along with a 360-degree 4D scene reconstruction method that seamlessly transforms the generated panoramic video into 4D assets, enabling a fully immersive 4D experience for users. Specifically, to tame video diffusion models for generating high-fidelity panoramic videos, we introduce the 360World dataset, the first comprehensive collection of panoramic videos suitable for downstream 4D scene reconstruction tasks. With this curated dataset, we propose Panoramic Animator, a two-stage image-to-video diffusion model that can convert panoramic images into high-quality panoramic videos. Following this, we present Panoramic Space-Time Reconstruction, which leverages a space-time depth estimation method to transform the generated panoramic videos into 4D point clouds, enabling the optimization of a holistic 4D Gaussian Splatting representation to reconstruct spatially and temporally consistent 4D scenes. To validate the efficacy of our method, we conducted a comparative analysis with existing approaches, revealing its superiority in both panoramic video generation and 4D scene reconstruction. This demonstrates our method's capability to create more engaging and realistic immersive environments, thereby enhancing user experiences in VR and AR applications.

Summary

AI-Generated Summary

PDF111May 7, 2025