Сколько 3D-информации кодируют фоновые модели для видео?
How Much 3D Do Video Foundation Models Encode?
December 23, 2025
Авторы: Zixuan Huang, Xiang Li, Zhaoyang Lv, James M. Rehg
cs.AI
Аннотация
Видео представляют собой непрерывные двумерные проекции трехмерных миров. Возникает ли глобальное понимание 3D естественным образом после обучения на больших объемах видеоданных? Мы исследуем этот вопрос, количественно оценивая понимание 3D существующими базовыми моделями для видео (VidFM), предварительно обученными на обширных видеоданных. Мы предлагаем первую модель-агностическую систему, которая измеряет осведомленность о 3D различных VidFM путем оценки множества 3D-свойств из их признаков с помощью поверхностных считываний. Наше исследование представляет значимые выводы относительно осведомленности VidFM о 3D по нескольким направлениям. В частности, мы показываем, что современные модели генерации видео демонстрируют глубокое понимание 3D-объектов и сцен, несмотря на отсутствие обучения на каких-либо 3D-данных. Такое понимание может даже превосходить таковое у крупных экспертных моделей, специально обученных для 3D-задач. Наши выводы, вместе с тестированием основных VidFM на понимание 3D, предоставляют ценные наблюдения для создания масштабируемых 3D-моделей.
English
Videos are continuous 2D projections of 3D worlds. After training on large video data, will global 3D understanding naturally emerge? We study this by quantifying the 3D understanding of existing Video Foundation Models (VidFMs) pretrained on vast video data. We propose the first model-agnostic framework that measures the 3D awareness of various VidFMs by estimating multiple 3D properties from their features via shallow read-outs. Our study presents meaningful findings regarding the 3D awareness of VidFMs on multiple axes. In particular, we show that state-of-the-art video generation models exhibit a strong understanding of 3D objects and scenes, despite not being trained on any 3D data. Such understanding can even surpass that of large expert models specifically trained for 3D tasks. Our findings, together with the 3D benchmarking of major VidFMs, provide valuable observations for building scalable 3D models.