¿Cuánta Información 3D Codifican los Modelos Base de Video?
How Much 3D Do Video Foundation Models Encode?
December 23, 2025
Autores: Zixuan Huang, Xiang Li, Zhaoyang Lv, James M. Rehg
cs.AI
Resumen
Los videos son proyecciones bidimensionales continuas de mundos tridimensionales. Tras el entrenamiento con grandes conjuntos de datos de video, ¿surgirá naturalmente una comprensión global 3D? Investigamos esto cuantificando la comprensión 3D de los Modelos Fundacionales de Video (VidFM) existentes, preentrenados con vastos datos de video. Proponemos el primer marco independiente del modelo que mide la percepción 3D de varios VidFM mediante la estimación de múltiples propiedades 3D a partir de sus características a través de lecturas superficiales. Nuestro estudio presenta hallazgos significativos sobre la percepción 3D de los VidFM en múltiples dimensiones. En particular, demostramos que los modelos de generación de video de última generación exhiben una sólida comprensión de objetos y escenas 3D, a pesar de no haber sido entrenados con datos 3D. Dicha comprensión puede incluso superar a la de grandes modelos expertos entrenados específicamente para tareas 3D. Nuestros hallazgos, junto con la evaluación comparativa 3D de los principales VidFM, proporcionan observaciones valiosas para construir modelos 3D escalables.
English
Videos are continuous 2D projections of 3D worlds. After training on large video data, will global 3D understanding naturally emerge? We study this by quantifying the 3D understanding of existing Video Foundation Models (VidFMs) pretrained on vast video data. We propose the first model-agnostic framework that measures the 3D awareness of various VidFMs by estimating multiple 3D properties from their features via shallow read-outs. Our study presents meaningful findings regarding the 3D awareness of VidFMs on multiple axes. In particular, we show that state-of-the-art video generation models exhibit a strong understanding of 3D objects and scenes, despite not being trained on any 3D data. Such understanding can even surpass that of large expert models specifically trained for 3D tasks. Our findings, together with the 3D benchmarking of major VidFMs, provide valuable observations for building scalable 3D models.