ChatPaper.aiChatPaper

Wie viel 3D-Information kodieren Video-Foundation-Modelle?

How Much 3D Do Video Foundation Models Encode?

December 23, 2025
papers.authors: Zixuan Huang, Xiang Li, Zhaoyang Lv, James M. Rehg
cs.AI

papers.abstract

Videos sind kontinuierliche 2D-Projektionen von 3D-Welten. Entsteht nach dem Training auf großen Videodaten automatisch ein globales 3D-Verständnis? Wir untersuchen dies, indem wir das 3D-Verständnis existierender Video-Foundation-Modelle (VidFMs) quantifizieren, die auf umfangreichen Videodaten vortrainiert wurden. Wir schlagen das erste modell-agnostische Framework vor, das das 3D-Bewusstsein verschiedener VidFMs misst, indem multiple 3D-Eigenschaften aus ihren Merkmalen mittels flacher Read-Outs geschätzt werden. Unsere Studie liefert aussagekräftige Erkenntnisse zum 3D-Bewusstsein von VidFMs auf mehreren Ebenen. Insbesondere zeigen wir, dass state-of-the-art Video-Generierungsmodelle ein starkes Verständnis für 3D-Objekte und -Szenen aufweisen, obwohl sie nicht auf 3D-Daten trainiert wurden. Dieses Verständnis kann sogar das großer Expertensysteme übertreffen, die speziell für 3D-Aufgaben trainiert wurden. Unsere Erkenntnisse zusammen mit dem 3D-Benchmarking wichtiger VidFMs liefern wertvolle Beobachtungen für den Aufbau skalierbarer 3D-Modelle.
English
Videos are continuous 2D projections of 3D worlds. After training on large video data, will global 3D understanding naturally emerge? We study this by quantifying the 3D understanding of existing Video Foundation Models (VidFMs) pretrained on vast video data. We propose the first model-agnostic framework that measures the 3D awareness of various VidFMs by estimating multiple 3D properties from their features via shallow read-outs. Our study presents meaningful findings regarding the 3D awareness of VidFMs on multiple axes. In particular, we show that state-of-the-art video generation models exhibit a strong understanding of 3D objects and scenes, despite not being trained on any 3D data. Such understanding can even surpass that of large expert models specifically trained for 3D tasks. Our findings, together with the 3D benchmarking of major VidFMs, provide valuable observations for building scalable 3D models.
PDF42December 27, 2025