ChatPaper.aiChatPaper

Modèles de Mondes à Particules Latentes : Modélisation Stochastique Autosupervisée de la Dynamique Centrée sur les Objets

Latent Particle World Models: Self-supervised Object-centric Stochastic Dynamics Modeling

March 4, 2026
Auteurs: Tal Daniel, Carl Qi, Dan Haramati, Amir Zadeh, Chuan Li, Aviv Tamar, Deepak Pathak, David Held
cs.AI

Résumé

Nous présentons le Modèle de Monde à Particules Latentes (LPWM), un modèle de monde centré sur les objets et auto-supervisé, mis à l'échelle pour des ensembles de données multi-objets du monde réel et applicable à la prise de décision. LPWM découvre de manière autonome des points clés, des boîtes englobantes et des masques d'objets directement à partir de données vidéo, lui permettant d'apprendre des décompositions de scènes riches sans supervision. Notre architecture est entraînée de bout en bout uniquement à partir de vidéos et permet un conditionnement flexible sur les actions, le langage et les objectifs image. LPWM modélise la dynamique stochastique des particules via un nouveau module d'action latente et obtient des résultats à la pointe de l'état de l'art sur divers ensembles de données réels et synthétiques. Au-delà de la modélisation stochastique vidéo, LPWM est directement applicable à la prise de décision, y compris l'apprentissage par imitation conditionné par un but, comme nous le démontrons dans l'article. Le code, les données, les modèles pré-entraînés et les séquences vidéo sont disponibles : https://taldatech.github.io/lpwm-web
English
We introduce Latent Particle World Model (LPWM), a self-supervised object-centric world model scaled to real-world multi-object datasets and applicable in decision-making. LPWM autonomously discovers keypoints, bounding boxes, and object masks directly from video data, enabling it to learn rich scene decompositions without supervision. Our architecture is trained end-to-end purely from videos and supports flexible conditioning on actions, language, and image goals. LPWM models stochastic particle dynamics via a novel latent action module and achieves state-of-the-art results on diverse real-world and synthetic datasets. Beyond stochastic video modeling, LPWM is readily applicable to decision-making, including goal-conditioned imitation learning, as we demonstrate in the paper. Code, data, pre-trained models and video rollouts are available: https://taldatech.github.io/lpwm-web
PDF32March 9, 2026