La comprensione intuitiva della fisica emerge da un preaddestramento auto-supervisionato su video naturali.

Abstract

Indaghiamo l'emergere della comprensione della fisica intuitiva in modelli di reti neurali profonde generici addestrati a prevedere regioni mascherate in video naturali. Sfruttando il framework della violazione delle aspettative, scopriamo che i modelli di previsione video addestrati a prevedere risultati in uno spazio di rappresentazione appreso dimostrano una comprensione di varie proprietà della fisica intuitiva, come la permanenza degli oggetti e la consistenza delle forme. Al contrario, la previsione video nello spazio dei pixel e i modelli linguistici multimodali di grandi dimensioni, che ragionano attraverso il testo, ottengono prestazioni più vicine al caso. I nostri confronti tra queste architetture rivelano che l'apprendimento congiunto di uno spazio di rappresentazione astratto mentre si prevedono parti mancanti dell'input sensoriale, simile al predictive coding, è sufficiente per acquisire una comprensione della fisica intuitiva, e che anche i modelli addestrati su una settimana di video unici ottengono prestazioni superiori al caso. Ciò mette in discussione l'idea che la conoscenza di base — un insieme di sistemi innati per aiutare a comprendere il mondo — debba essere cablata per sviluppare una comprensione della fisica intuitiva.

English

We investigate the emergence of intuitive physics understanding in general-purpose deep neural network models trained to predict masked regions in natural videos. Leveraging the violation-of-expectation framework, we find that video prediction models trained to predict outcomes in a learned representation space demonstrate an understanding of various intuitive physics properties, such as object permanence and shape consistency. In contrast, video prediction in pixel space and multimodal large language models, which reason through text, achieve performance closer to chance. Our comparisons of these architectures reveal that jointly learning an abstract representation space while predicting missing parts of sensory input, akin to predictive coding, is sufficient to acquire an understanding of intuitive physics, and that even models trained on one week of unique video achieve above chance performance. This challenges the idea that core knowledge -- a set of innate systems to help understand the world -- needs to be hardwired to develop an understanding of intuitive physics.

La comprensione intuitiva della fisica emerge da un preaddestramento auto-supervisionato su video naturali.

Intuitive physics understanding emerges from self-supervised pretraining on natural videos

Abstract

Support