비디오 파운데이션 모델은 3D 정보를 얼마나 인코딩할까?
How Much 3D Do Video Foundation Models Encode?
December 23, 2025
저자: Zixuan Huang, Xiang Li, Zhaoyang Lv, James M. Rehg
cs.AI
초록
동영상은 3D 세계의 연속적인 2D 투영입니다. 대규모 동영상 데이터로 학습한 후, 전역적인 3D 이해가 자연스럽게 나타날까요? 우리는 방대한 동영상 데이터로 사전 학습된 기존 비디오 파운데이션 모델(VidFMs)의 3D 이해 수준을 정량화하여 이를 연구합니다. 우리는 얕은 읽기(read-outs)를 통해 다양한 VidFMs의 특징에서 여러 3D 속성을 추정함으로써 해당 모델들의 3D 인식을 측정하는 최초의 모델-불가지론적 프레임워크를 제안합니다. 우리의 연구는 여러 축에서 VidFMs의 3D 인식에 관한 의미 있는 발견을 제시합니다. 특히, 최첨단 비디오 생성 모델들이 어떠한 3D 데이터로도 학습되지 않았음에도 불구하고 3D 객체와 장면에 대한 강력한 이해를 보여준다는 점을 입증합니다. 이러한 이해는 3D 작업을 위해 특별히 훈련된 대규모 전문 모델의 성능을 능가할 수도 있습니다. 주요 VidFMs의 3D 벤치마킹과 함께한 우리의 발견은 확장 가능한 3D 모델 구축을 위한 가치 있는 관찰 결과를 제공합니다.
English
Videos are continuous 2D projections of 3D worlds. After training on large video data, will global 3D understanding naturally emerge? We study this by quantifying the 3D understanding of existing Video Foundation Models (VidFMs) pretrained on vast video data. We propose the first model-agnostic framework that measures the 3D awareness of various VidFMs by estimating multiple 3D properties from their features via shallow read-outs. Our study presents meaningful findings regarding the 3D awareness of VidFMs on multiple axes. In particular, we show that state-of-the-art video generation models exhibit a strong understanding of 3D objects and scenes, despite not being trained on any 3D data. Such understanding can even surpass that of large expert models specifically trained for 3D tasks. Our findings, together with the 3D benchmarking of major VidFMs, provide valuable observations for building scalable 3D models.