ビデオ基盤モデルはどれだけの3D情報を符号化しているのか?
How Much 3D Do Video Foundation Models Encode?
December 23, 2025
著者: Zixuan Huang, Xiang Li, Zhaoyang Lv, James M. Rehg
cs.AI
要旨
動画は3D世界の連続的な2D投影である。大規模な動画データで学習した後、グローバルな3D理解は自然に出現するだろうか?我々は、膨大な動画データで事前学習された既存のビデオ基盤モデル(VidFM)の3D理解度を定量化することでこの問題を検証する。本論文では、浅層リードアウトを通じて各種VidFMの特徴量から複数の3D特性を推定し、それらの3D認識能力を測定する初のモデル非依存フレームワークを提案する。我々の研究は、複数の軸にわたるVidFMの3D認識に関する有意義な知見を提示する。特に、3Dデータで全く学習されていないにもかかわらず、最先端の動画生成モデルが3Dオブジェクトとシーンに対する強力な理解を示すことを実証する。このような理解は、3Dタスク向けに特別に訓練された大規模専門モデルを凌駕することさえある。主要VidFMの3Dベンチマーク結果とともに得られた本発見は、スケーラブルな3Dモデル構築に向けた貴重な示唆を提供する。
English
Videos are continuous 2D projections of 3D worlds. After training on large video data, will global 3D understanding naturally emerge? We study this by quantifying the 3D understanding of existing Video Foundation Models (VidFMs) pretrained on vast video data. We propose the first model-agnostic framework that measures the 3D awareness of various VidFMs by estimating multiple 3D properties from their features via shallow read-outs. Our study presents meaningful findings regarding the 3D awareness of VidFMs on multiple axes. In particular, we show that state-of-the-art video generation models exhibit a strong understanding of 3D objects and scenes, despite not being trained on any 3D data. Such understanding can even surpass that of large expert models specifically trained for 3D tasks. Our findings, together with the 3D benchmarking of major VidFMs, provide valuable observations for building scalable 3D models.