ChatPaper.aiChatPaper

AdaViewPlanner: 4Dシーンにおける視点計画のためのビデオ拡散モデルの適応

AdaViewPlanner: Adapting Video Diffusion Models for Viewpoint Planning in 4D Scenes

October 12, 2025
著者: Yu Li, Menghan Xia, Gongye Liu, Jianhong Bai, Xintao Wang, Conglang Zhang, Yuxuan Lin, Ruihang Chu, Pengfei Wan, Yujiu Yang
cs.AI

要旨

最近のテキストからビデオ(T2V)モデルは、現実世界の幾何学や物理法則の視覚的シミュレーションにおいて強力な能力を示しており、暗黙的な世界モデルとしての可能性を示唆しています。これに触発され、ビデオ生成の事前知識を活用して、与えられた4Dシーンからの視点計画の実現可能性を探求します。なぜなら、ビデオは内部的に自然な視点を伴った動的なシーンを内包しているからです。この目的のために、事前学習済みのT2Vモデルを視点予測に適応させるための2段階のパラダイムを提案します。まず、4Dシーン表現を適応学習ブランチを通じて事前学習済みT2Vモデルに注入します。ここで、4Dシーンは視点に依存せず、条件付きで生成されたビデオが視点を視覚的に埋め込みます。次に、視点抽出をハイブリッド条件に導かれたカメラ外部パラメータのノイズ除去プロセスとして定式化します。具体的には、生成されたビデオと4Dシーンを入力として、事前学習済みT2Vモデルにカメラ外部パラメータ拡散ブランチをさらに導入します。実験結果は、提案手法が既存の競合手法を上回る優位性を示し、アブレーション研究は主要な技術設計の有効性を検証しています。ある程度、この研究はビデオ生成モデルが現実世界における4Dインタラクションに向けた可能性を証明しています。
English
Recent Text-to-Video (T2V) models have demonstrated powerful capability in visual simulation of real-world geometry and physical laws, indicating its potential as implicit world models. Inspired by this, we explore the feasibility of leveraging the video generation prior for viewpoint planning from given 4D scenes, since videos internally accompany dynamic scenes with natural viewpoints. To this end, we propose a two-stage paradigm to adapt pre-trained T2V models for viewpoint prediction, in a compatible manner. First, we inject the 4D scene representation into the pre-trained T2V model via an adaptive learning branch, where the 4D scene is viewpoint-agnostic and the conditional generated video embeds the viewpoints visually. Then, we formulate viewpoint extraction as a hybrid-condition guided camera extrinsic denoising process. Specifically, a camera extrinsic diffusion branch is further introduced onto the pre-trained T2V model, by taking the generated video and 4D scene as input. Experimental results show the superiority of our proposed method over existing competitors, and ablation studies validate the effectiveness of our key technical designs. To some extent, this work proves the potential of video generation models toward 4D interaction in real world.
PDF162October 14, 2025