La compréhension intuitive de la physique émerge de l'auto-apprentissage supervisé préalable sur des vidéos naturelles.

papers.abstract

Nous étudions l'émergence de la compréhension de la physique intuitive dans des modèles de réseaux neuronaux profonds à usage général entraînés à prédire des régions masquées dans des vidéos naturelles. En exploitant le cadre de la violation des attentes, nous constatons que les modèles de prédiction vidéo formés pour prédire des résultats dans un espace de représentation appris démontrent une compréhension de diverses propriétés de la physique intuitive, telles que la permanence des objets et la cohérence des formes. En revanche, la prédiction vidéo dans l'espace des pixels et les grands modèles de langage multimodaux, qui raisonnent à travers du texte, atteignent des performances plus proches du hasard. Nos comparaisons de ces architectures révèlent que l'apprentissage conjoint d'un espace de représentation abstrait tout en prédisant les parties manquantes de l'entrée sensorielle, similaire au codage prédictif, est suffisant pour acquérir une compréhension de la physique intuitive, et que même les modèles formés sur une semaine de vidéos uniques atteignent des performances supérieures au hasard. Cela remet en question l'idée que la connaissance de base - un ensemble de systèmes innés pour aider à comprendre le monde - doit être préprogrammée pour développer une compréhension de la physique intuitive.

English

We investigate the emergence of intuitive physics understanding in general-purpose deep neural network models trained to predict masked regions in natural videos. Leveraging the violation-of-expectation framework, we find that video prediction models trained to predict outcomes in a learned representation space demonstrate an understanding of various intuitive physics properties, such as object permanence and shape consistency. In contrast, video prediction in pixel space and multimodal large language models, which reason through text, achieve performance closer to chance. Our comparisons of these architectures reveal that jointly learning an abstract representation space while predicting missing parts of sensory input, akin to predictive coding, is sufficient to acquire an understanding of intuitive physics, and that even models trained on one week of unique video achieve above chance performance. This challenges the idea that core knowledge -- a set of innate systems to help understand the world -- needs to be hardwired to develop an understanding of intuitive physics.

La compréhension intuitive de la physique émerge de l'auto-apprentissage supervisé préalable sur des vidéos naturelles.

Intuitive physics understanding emerges from self-supervised pretraining on natural videos

papers.abstract

Support