Modelos de Mundos de Partículas Latentes: Modelado Estocástico de Dinámicas Centrado en Objetos con Auto-supervisión

Resumen

Presentamos el Modelo de Mundo de Partículas Latentes (LPWM), un modelo de mundo centrado en objetos y auto-supervisado, escalado a conjuntos de datos del mundo real con múltiples objetos y aplicable en la toma de decisiones. LPWM descubre de forma autónoma puntos clave, cuadros delimitadores y máscaras de objetos directamente a partir de datos de vídeo, lo que le permite aprender descomposiciones de escenas ricas sin supervisión. Nuestra arquitectura se entrena de extremo a extremo únicamente a partir de vídeos y admite condicionamiento flexible mediante acciones, lenguaje y objetivos de imagen. LPWM modela la dinámica estocástica de partículas a través de un novedoso módulo de acción latente y logra resultados de vanguardia en diversos conjuntos de datos sintéticos y del mundo real. Más allá del modelado estocástico de vídeo, LPWM es fácilmente aplicable a la toma de decisiones, incluyendo el aprendizaje por imitación condicionado a objetivos, como demostramos en el artículo. El código, los datos, los modelos preentrenados y las simulaciones en vídeo están disponibles en: https://taldatech.github.io/lpwm-web

English

We introduce Latent Particle World Model (LPWM), a self-supervised object-centric world model scaled to real-world multi-object datasets and applicable in decision-making. LPWM autonomously discovers keypoints, bounding boxes, and object masks directly from video data, enabling it to learn rich scene decompositions without supervision. Our architecture is trained end-to-end purely from videos and supports flexible conditioning on actions, language, and image goals. LPWM models stochastic particle dynamics via a novel latent action module and achieves state-of-the-art results on diverse real-world and synthetic datasets. Beyond stochastic video modeling, LPWM is readily applicable to decision-making, including goal-conditioned imitation learning, as we demonstrate in the paper. Code, data, pre-trained models and video rollouts are available: https://taldatech.github.io/lpwm-web

Modelos de Mundos de Partículas Latentes: Modelado Estocástico de Dinámicas Centrado en Objetos con Auto-supervisión

Latent Particle World Models: Self-supervised Object-centric Stochastic Dynamics Modeling

Resumen

Support