Quanta Informazione 3D Incorporano i Modelli di Base per il Video?

Abstract

I video sono proiezioni 2D continue di mondi 3D. Dopo l'addestramento su grandi quantità di dati video, la comprensione globale del 3D emergerà naturalmente? Lo studiamo quantificando la comprensione del 3D di modelli video fondazionali (VidFM) esistenti pre-addestrati su vaste raccolte di dati video. Proponiamo il primo framework modello-agnostico che misura la consapevolezza 3D di vari VidFM stimando multiple proprietà 3D dalle loro feature tramite read-out superficiali. Il nostro studio presenta risultati significativi riguardo la consapevolezza 3D dei VidFM su molteplici assi. In particolare, dimostriamo che i modelli all'avanguardia per la generazione video mostrano una forte comprensione di oggetti e scene 3D, nonostante non siano stati addestrati su alcun dato 3D. Tale comprensione può persino superare quella di grandi modelli specialistici addestrati specificamente per compiti 3D. I nostri risultati, insieme al benchmarking 3D dei principali VidFM, forniscono osservazioni preziose per la costruzione di modelli 3D scalabili.

English

Videos are continuous 2D projections of 3D worlds. After training on large video data, will global 3D understanding naturally emerge? We study this by quantifying the 3D understanding of existing Video Foundation Models (VidFMs) pretrained on vast video data. We propose the first model-agnostic framework that measures the 3D awareness of various VidFMs by estimating multiple 3D properties from their features via shallow read-outs. Our study presents meaningful findings regarding the 3D awareness of VidFMs on multiple axes. In particular, we show that state-of-the-art video generation models exhibit a strong understanding of 3D objects and scenes, despite not being trained on any 3D data. Such understanding can even surpass that of large expert models specifically trained for 3D tasks. Our findings, together with the 3D benchmarking of major VidFMs, provide valuable observations for building scalable 3D models.

Quanta Informazione 3D Incorporano i Modelli di Base per il Video?

How Much 3D Do Video Foundation Models Encode?

Abstract

Support