Hoeveel 3D-informatie Coderen Videofundatiemodellen?
How Much 3D Do Video Foundation Models Encode?
December 23, 2025
Auteurs: Zixuan Huang, Xiang Li, Zhaoyang Lv, James M. Rehg
cs.AI
Samenvatting
Video's zijn continue 2D-projecties van 3D-werelden. Ontstaat er na training op grote hoeveelheden videogegevens vanzelf een globaal 3D-begrip? Wij onderzoeken dit door het 3D-begrip van bestaande Video Foundation Models (VidFM's) die zijn voorgetraind op enorme hoeveelheden videodata te kwantificeren. Wij stellen het eerste model-agnostische raamwerk voor dat het 3D-bewustzijn van verschillende VidFM's meet door middel van ondiepe 'read-outs' van meerdere 3D-eigenschappen uit hun kenmerken. Onze studie presenteert betekenisvolle bevindingen over het 3D-bewustzijn van VidFM's op meerdere assen. In het bijzonder tonen wij aan dat state-of-the-art videogeneratiemodellen een sterk begrip vertonen van 3D-objecten en -scènes, ondanks dat zij niet op 3D-data zijn getraind. Dit begrip kan zelfs dat van grote expertmodellen die specifiek voor 3D-taken zijn getraind overtreffen. Onze bevindingen, samen met de 3D-benchmarking van belangrijke VidFM's, leveren waardevolle inzichten op voor het bouwen van schaalbare 3D-modellen.
English
Videos are continuous 2D projections of 3D worlds. After training on large video data, will global 3D understanding naturally emerge? We study this by quantifying the 3D understanding of existing Video Foundation Models (VidFMs) pretrained on vast video data. We propose the first model-agnostic framework that measures the 3D awareness of various VidFMs by estimating multiple 3D properties from their features via shallow read-outs. Our study presents meaningful findings regarding the 3D awareness of VidFMs on multiple axes. In particular, we show that state-of-the-art video generation models exhibit a strong understanding of 3D objects and scenes, despite not being trained on any 3D data. Such understanding can even surpass that of large expert models specifically trained for 3D tasks. Our findings, together with the 3D benchmarking of major VidFMs, provide valuable observations for building scalable 3D models.