Modelos de Mundos de Partículas Latentes: Modelado Estocástico de Dinámicas Centrado en Objetos con Auto-supervisión
Latent Particle World Models: Self-supervised Object-centric Stochastic Dynamics Modeling
March 4, 2026
Autores: Tal Daniel, Carl Qi, Dan Haramati, Amir Zadeh, Chuan Li, Aviv Tamar, Deepak Pathak, David Held
cs.AI
Resumen
Presentamos el Modelo de Mundo de Partículas Latentes (LPWM), un modelo de mundo centrado en objetos y auto-supervisado, escalado a conjuntos de datos del mundo real con múltiples objetos y aplicable en la toma de decisiones. LPWM descubre de forma autónoma puntos clave, cuadros delimitadores y máscaras de objetos directamente a partir de datos de vídeo, lo que le permite aprender descomposiciones de escenas ricas sin supervisión. Nuestra arquitectura se entrena de extremo a extremo únicamente a partir de vídeos y admite condicionamiento flexible mediante acciones, lenguaje y objetivos de imagen. LPWM modela la dinámica estocástica de partículas a través de un novedoso módulo de acción latente y logra resultados de vanguardia en diversos conjuntos de datos sintéticos y del mundo real. Más allá del modelado estocástico de vídeo, LPWM es fácilmente aplicable a la toma de decisiones, incluyendo el aprendizaje por imitación condicionado a objetivos, como demostramos en el artículo. El código, los datos, los modelos preentrenados y las simulaciones en vídeo están disponibles en: https://taldatech.github.io/lpwm-web
English
We introduce Latent Particle World Model (LPWM), a self-supervised object-centric world model scaled to real-world multi-object datasets and applicable in decision-making. LPWM autonomously discovers keypoints, bounding boxes, and object masks directly from video data, enabling it to learn rich scene decompositions without supervision. Our architecture is trained end-to-end purely from videos and supports flexible conditioning on actions, language, and image goals. LPWM models stochastic particle dynamics via a novel latent action module and achieves state-of-the-art results on diverse real-world and synthetic datasets. Beyond stochastic video modeling, LPWM is readily applicable to decision-making, including goal-conditioned imitation learning, as we demonstrate in the paper. Code, data, pre-trained models and video rollouts are available: https://taldatech.github.io/lpwm-web