ChatPaper.aiChatPaper

Combien de 3D les modèles de fondation vidéo encodent-ils ?

How Much 3D Do Video Foundation Models Encode?

December 23, 2025
papers.authors: Zixuan Huang, Xiang Li, Zhaoyang Lv, James M. Rehg
cs.AI

papers.abstract

Les vidéos sont des projections 2D continues de mondes 3D. Après un entraînement sur de vastes données vidéo, une compréhension globale de la 3D émerge-t-elle naturellement ? Nous étudions cette question en quantifiant la compréhension 3D de modèles fondateurs vidéo (VidFMs) existants pré-entraînés sur d'immenses quantités de données vidéo. Nous proposons le premier cadre agnostique aux modèles qui mesure la conscience 3D de divers VidFMs en estimant plusieurs propriétés 3D à partir de leurs caractéristiques via des lectures superficielles. Notre étude présente des résultats significatifs concernant la conscience 3D des VidFMs sur de multiples axes. En particulier, nous montrons que les modèles de génération vidéo de pointe présentent une compréhension solide des objets et scènes 3D, bien qu'ils n'aient été entraînés sur aucune donnée 3D. Cette compréhension peut même surpasser celle de grands modèles experts spécifiquement entraînés pour des tâches 3D. Nos résultats, ainsi que l'évaluation comparative 3D des principaux VidFMs, fournissent des observations précieuses pour la construction de modèles 3D évolutifs.
English
Videos are continuous 2D projections of 3D worlds. After training on large video data, will global 3D understanding naturally emerge? We study this by quantifying the 3D understanding of existing Video Foundation Models (VidFMs) pretrained on vast video data. We propose the first model-agnostic framework that measures the 3D awareness of various VidFMs by estimating multiple 3D properties from their features via shallow read-outs. Our study presents meaningful findings regarding the 3D awareness of VidFMs on multiple axes. In particular, we show that state-of-the-art video generation models exhibit a strong understanding of 3D objects and scenes, despite not being trained on any 3D data. Such understanding can even surpass that of large expert models specifically trained for 3D tasks. Our findings, together with the 3D benchmarking of major VidFMs, provide valuable observations for building scalable 3D models.
PDF42December 27, 2025