直感的な物理理解は、自然映像を用いた自己教師あり事前学習から生じる
Intuitive physics understanding emerges from self-supervised pretraining on natural videos
February 17, 2025
著者: Quentin Garrido, Nicolas Ballas, Mahmoud Assran, Adrien Bardes, Laurent Najman, Michael Rabbat, Emmanuel Dupoux, Yann LeCun
cs.AI
要旨
自然映像におけるマスクされた領域を予測するよう訓練された汎用ディープニューラルネットワークモデルにおいて、直感的物理理解がどのように出現するかを調査する。期待違反フレームワークを活用し、学習された表現空間における結果を予測するよう訓練された映像予測モデルが、物体の永続性や形状の一貫性といった様々な直感的物理特性を理解していることを明らかにした。一方、ピクセル空間での映像予測やテキストを通じて推論を行うマルチモーダル大規模言語モデルは、偶然に近い性能しか達成しなかった。これらのアーキテクチャの比較から、感覚入力の欠落部分を予測しながら抽象的な表現空間を共同で学習すること(予測符号化に類似)が、直感的物理の理解を獲得するのに十分であり、たとえ1週間分のユニークな映像で訓練されたモデルでも偶然を上回る性能を達成することが示された。これは、直感的物理を理解するために、世界を理解するための一連の生得的システムであるコア知識がハードワイヤードされる必要があるという考えに疑問を投げかけるものである。
English
We investigate the emergence of intuitive physics understanding in
general-purpose deep neural network models trained to predict masked regions in
natural videos. Leveraging the violation-of-expectation framework, we find that
video prediction models trained to predict outcomes in a learned representation
space demonstrate an understanding of various intuitive physics properties,
such as object permanence and shape consistency. In contrast, video prediction
in pixel space and multimodal large language models, which reason through text,
achieve performance closer to chance. Our comparisons of these architectures
reveal that jointly learning an abstract representation space while predicting
missing parts of sensory input, akin to predictive coding, is sufficient to
acquire an understanding of intuitive physics, and that even models trained on
one week of unique video achieve above chance performance. This challenges the
idea that core knowledge -- a set of innate systems to help understand the
world -- needs to be hardwired to develop an understanding of intuitive
physics.Summary
AI-Generated Summary