Les modèles du monde à apprentissage zéro sont des apprenants au développement efficace

Résumé

Les jeunes enfants démontrent des capacités précoces à comprendre leur monde physique, en estimant la profondeur, le mouvement, la cohérence des objets, les interactions et de nombreux autres aspects de la compréhension des scènes physiques. Les enfants sont des systèmes cognitifs à la fois efficaces en données et flexibles, développant des compétences malgré des données d'entraînement extrêmement limitées, tout en généralisant à une myriade de tâches non entraînées – un défi majeur même pour les meilleurs systèmes d'IA actuels. Nous présentons ici une nouvelle hypothèse computationnelle pour ces capacités : le Modèle de Monde Visuel Zéro-shot (ZWM). Le ZWM repose sur trois principes : un prédicteur factorisé temporellement et parcimonieux qui découple l'apparence de la dynamique ; une estimation zéro-shot par inférence causale approximative ; et la composition d'inférences pour construire des capacités plus complexes. Nous montrons que le ZWM peut être appris à partir de l'expérience en première personne d'un seul enfant, générant rapidement des compétences sur plusieurs benchmarks de compréhension physique. Il reproduit également largement les signatures comportementales du développement de l'enfant et construit des représentations internes similaires à celles du cerveau. Notre travail propose une feuille de route pour un apprentissage efficace et flexible à partir de données à l'échelle humaine, faisant progresser à la fois une explication computationnelle de la compréhension physique précoce des enfants et une voie vers des systèmes d'IA efficaces en données.

English

Young children demonstrate early abilities to understand their physical world, estimating depth, motion, object coherence, interactions, and many other aspects of physical scene understanding. Children are both data-efficient and flexible cognitive systems, creating competence despite extremely limited training data, while generalizing to myriad untrained tasks -- a major challenge even for today's best AI systems. Here we introduce a novel computational hypothesis for these abilities, the Zero-shot Visual World Model (ZWM). ZWM is based on three principles: a sparse temporally-factored predictor that decouples appearance from dynamics; zero-shot estimation through approximate causal inference; and composition of inferences to build more complex abilities. We show that ZWM can be learned from the first-person experience of a single child, rapidly generating competence across multiple physical understanding benchmarks. It also broadly recapitulates behavioral signatures of child development and builds brain-like internal representations. Our work presents a blueprint for efficient and flexible learning from human-scale data, advancing both a computational account for children's early physical understanding and a path toward data-efficient AI systems.

Les modèles du monde à apprentissage zéro sont des apprenants au développement efficace

Zero-shot World Models Are Developmentally Efficient Learners

Résumé

Support