ChatPaper.aiChatPaper

Intuïtief begrip van fysica ontstaat uit zelfgesuperviseerde voorafgaande training op natuurlijke video's

Intuitive physics understanding emerges from self-supervised pretraining on natural videos

February 17, 2025
Auteurs: Quentin Garrido, Nicolas Ballas, Mahmoud Assran, Adrien Bardes, Laurent Najman, Michael Rabbat, Emmanuel Dupoux, Yann LeCun
cs.AI

Samenvatting

We onderzoeken het ontstaan van intuïtief natuurkundig begrip in algemene deep neural network-modellen die zijn getraind om gemaskeerde gebieden in natuurlijke video's te voorspellen. Door gebruik te maken van het violation-of-expectation-raamwerk, ontdekken we dat videovoorspellingsmodellen die zijn getraind om uitkomsten in een geleerde representatieruimte te voorspellen, een begrip tonen van verschillende intuïtieve natuurkundige eigenschappen, zoals objectpermanentie en vormconsistentie. Daarentegen presteren videovoorspellingen in pixelruimte en multimodale grote taalmodellen, die redeneren via tekst, dichter bij toeval. Onze vergelijkingen van deze architecturen laten zien dat het gezamenlijk leren van een abstracte representatieruimte terwijl ontbrekende delen van sensorische invoer worden voorspeld, vergelijkbaar met predictive coding, voldoende is om een begrip van intuïtieve natuurkunde te verwerven, en dat zelfs modellen die zijn getraind op één week unieke video boven het toeval presteren. Dit daagt het idee uit dat kernkennis — een set van aangeboren systemen om de wereld te begrijpen — ingebouwd moet zijn om een begrip van intuïtieve natuurkunde te ontwikkelen.
English
We investigate the emergence of intuitive physics understanding in general-purpose deep neural network models trained to predict masked regions in natural videos. Leveraging the violation-of-expectation framework, we find that video prediction models trained to predict outcomes in a learned representation space demonstrate an understanding of various intuitive physics properties, such as object permanence and shape consistency. In contrast, video prediction in pixel space and multimodal large language models, which reason through text, achieve performance closer to chance. Our comparisons of these architectures reveal that jointly learning an abstract representation space while predicting missing parts of sensory input, akin to predictive coding, is sufficient to acquire an understanding of intuitive physics, and that even models trained on one week of unique video achieve above chance performance. This challenges the idea that core knowledge -- a set of innate systems to help understand the world -- needs to be hardwired to develop an understanding of intuitive physics.

Summary

AI-Generated Summary

PDF192February 18, 2025