La compréhension intuitive de la physique émerge de l'auto-apprentissage supervisé préalable sur des vidéos naturelles.
Intuitive physics understanding emerges from self-supervised pretraining on natural videos
February 17, 2025
Auteurs: Quentin Garrido, Nicolas Ballas, Mahmoud Assran, Adrien Bardes, Laurent Najman, Michael Rabbat, Emmanuel Dupoux, Yann LeCun
cs.AI
Résumé
Nous étudions l'émergence de la compréhension de la physique intuitive dans des modèles de réseaux neuronaux profonds à usage général entraînés à prédire des régions masquées dans des vidéos naturelles. En exploitant le cadre de la violation des attentes, nous constatons que les modèles de prédiction vidéo formés pour prédire des résultats dans un espace de représentation appris démontrent une compréhension de diverses propriétés de la physique intuitive, telles que la permanence des objets et la cohérence des formes. En revanche, la prédiction vidéo dans l'espace des pixels et les grands modèles de langage multimodaux, qui raisonnent à travers du texte, atteignent des performances plus proches du hasard. Nos comparaisons de ces architectures révèlent que l'apprentissage conjoint d'un espace de représentation abstrait tout en prédisant les parties manquantes de l'entrée sensorielle, similaire au codage prédictif, est suffisant pour acquérir une compréhension de la physique intuitive, et que même les modèles formés sur une semaine de vidéos uniques atteignent des performances supérieures au hasard. Cela remet en question l'idée que la connaissance de base - un ensemble de systèmes innés pour aider à comprendre le monde - doit être préprogrammée pour développer une compréhension de la physique intuitive.
English
We investigate the emergence of intuitive physics understanding in
general-purpose deep neural network models trained to predict masked regions in
natural videos. Leveraging the violation-of-expectation framework, we find that
video prediction models trained to predict outcomes in a learned representation
space demonstrate an understanding of various intuitive physics properties,
such as object permanence and shape consistency. In contrast, video prediction
in pixel space and multimodal large language models, which reason through text,
achieve performance closer to chance. Our comparisons of these architectures
reveal that jointly learning an abstract representation space while predicting
missing parts of sensory input, akin to predictive coding, is sufficient to
acquire an understanding of intuitive physics, and that even models trained on
one week of unique video achieve above chance performance. This challenges the
idea that core knowledge -- a set of innate systems to help understand the
world -- needs to be hardwired to develop an understanding of intuitive
physics.Summary
AI-Generated Summary