La comprensione intuitiva della fisica emerge da un preaddestramento auto-supervisionato su video naturali.
Intuitive physics understanding emerges from self-supervised pretraining on natural videos
February 17, 2025
Autori: Quentin Garrido, Nicolas Ballas, Mahmoud Assran, Adrien Bardes, Laurent Najman, Michael Rabbat, Emmanuel Dupoux, Yann LeCun
cs.AI
Abstract
Indaghiamo l'emergere della comprensione della fisica intuitiva in modelli di reti neurali profonde generici addestrati a prevedere regioni mascherate in video naturali. Sfruttando il framework della violazione delle aspettative, scopriamo che i modelli di previsione video addestrati a prevedere risultati in uno spazio di rappresentazione appreso dimostrano una comprensione di varie proprietà della fisica intuitiva, come la permanenza degli oggetti e la consistenza delle forme. Al contrario, la previsione video nello spazio dei pixel e i modelli linguistici multimodali di grandi dimensioni, che ragionano attraverso il testo, ottengono prestazioni più vicine al caso. I nostri confronti tra queste architetture rivelano che l'apprendimento congiunto di uno spazio di rappresentazione astratto mentre si prevedono parti mancanti dell'input sensoriale, simile al predictive coding, è sufficiente per acquisire una comprensione della fisica intuitiva, e che anche i modelli addestrati su una settimana di video unici ottengono prestazioni superiori al caso. Ciò mette in discussione l'idea che la conoscenza di base — un insieme di sistemi innati per aiutare a comprendere il mondo — debba essere cablata per sviluppare una comprensione della fisica intuitiva.
English
We investigate the emergence of intuitive physics understanding in
general-purpose deep neural network models trained to predict masked regions in
natural videos. Leveraging the violation-of-expectation framework, we find that
video prediction models trained to predict outcomes in a learned representation
space demonstrate an understanding of various intuitive physics properties,
such as object permanence and shape consistency. In contrast, video prediction
in pixel space and multimodal large language models, which reason through text,
achieve performance closer to chance. Our comparisons of these architectures
reveal that jointly learning an abstract representation space while predicting
missing parts of sensory input, akin to predictive coding, is sufficient to
acquire an understanding of intuitive physics, and that even models trained on
one week of unique video achieve above chance performance. This challenges the
idea that core knowledge -- a set of innate systems to help understand the
world -- needs to be hardwired to develop an understanding of intuitive
physics.Summary
AI-Generated Summary