Quanto de 3D os Modelos de Base de Vídeo Codificam?

Resumo

Os vídeos são projeções 2D contínuas de mundos 3D. Após o treinamento em grandes conjuntos de dados de vídeo, será que a compreensão global 3D emerge naturalmente? Investigamos isso quantificando a compreensão 3D de modelos fundamentais de vídeo (VidFMs) existentes pré-treinados em vastos dados de vídeo. Propomos o primeiro framework agnóstico de modelo que mede a percepção 3D de vários VidFMs através da estimativa de múltiplas propriedades 3D a partir de suas características via leituras superficiais. Nosso estudo apresenta descobertas significativas sobre a percepção 3D dos VidFMs em múltiplos eixos. Em particular, demonstramos que modelos state-of-the-art de geração de vídeo exibem uma forte compreensão de objetos e cenas 3D, apesar de não terem sido treinados em quaisquer dados 3D. Tal compreensão pode até superar a de grandes modelos especializados treinados especificamente para tarefas 3D. Nossas descobertas, juntamente com a avaliação 3D dos principais VidFMs, fornecem observações valiosas para a construção de modelos 3D escaláveis.

English

Videos are continuous 2D projections of 3D worlds. After training on large video data, will global 3D understanding naturally emerge? We study this by quantifying the 3D understanding of existing Video Foundation Models (VidFMs) pretrained on vast video data. We propose the first model-agnostic framework that measures the 3D awareness of various VidFMs by estimating multiple 3D properties from their features via shallow read-outs. Our study presents meaningful findings regarding the 3D awareness of VidFMs on multiple axes. In particular, we show that state-of-the-art video generation models exhibit a strong understanding of 3D objects and scenes, despite not being trained on any 3D data. Such understanding can even surpass that of large expert models specifically trained for 3D tasks. Our findings, together with the 3D benchmarking of major VidFMs, provide valuable observations for building scalable 3D models.