ChatPaper.aiChatPaper

Latente Partikel-Weltmodelle: Selbstüberwachte objektzentrierte stochastische Dynamikmodellierung

Latent Particle World Models: Self-supervised Object-centric Stochastic Dynamics Modeling

March 4, 2026
Autoren: Tal Daniel, Carl Qi, Dan Haramati, Amir Zadeh, Chuan Li, Aviv Tamar, Deepak Pathak, David Held
cs.AI

Zusammenfassung

Wir stellen Latent Particle World Model (LPWM) vor, ein selbstüberwachtes, objektzentriertes Weltmodell, das für reale Multi-Objekt-Datensätze skaliert und in der Entscheidungsfindung anwendbar ist. LPWM entdeckt autonom Keypoints, Bounding Boxes und Objektmasken direkt aus Videodaten, wodurch es reichhaltige Szenenzerlegungen ohne Überwachung erlernen kann. Unsere Architektur wird rein end-to-end aus Videos trainiert und unterstützt flexible Konditionierung auf Aktionen, Sprache und Bildziele. LPWM modelliert stochastische Partikeldynamiken über ein neuartiges latentes Aktionsmodul und erzielt state-of-the-art Ergebnisse auf verschiedenen realen und synthetischen Datensätzen. Über die stochastische Videomodellierung hinaus ist LPWM direkt in der Entscheidungsfindung anwendbar, einschließlich zielkonditioniertem Imitationslernen, wie wir in der Arbeit demonstrieren. Code, Daten, vortrainierte Modelle und Video-Rollouts sind verfügbar: https://taldatech.github.io/lpwm-web
English
We introduce Latent Particle World Model (LPWM), a self-supervised object-centric world model scaled to real-world multi-object datasets and applicable in decision-making. LPWM autonomously discovers keypoints, bounding boxes, and object masks directly from video data, enabling it to learn rich scene decompositions without supervision. Our architecture is trained end-to-end purely from videos and supports flexible conditioning on actions, language, and image goals. LPWM models stochastic particle dynamics via a novel latent action module and achieves state-of-the-art results on diverse real-world and synthetic datasets. Beyond stochastic video modeling, LPWM is readily applicable to decision-making, including goal-conditioned imitation learning, as we demonstrate in the paper. Code, data, pre-trained models and video rollouts are available: https://taldatech.github.io/lpwm-web
PDF32March 9, 2026