Modelos de Mundos de Partículas Latentes: Modelagem Estocástica de Dinâmica Autocentrada em Objetos com Aprendizado Autossupervisionado

Resumo

Apresentamos o Latent Particle World Model (LPWM), um modelo de mundo centrado em objetos e auto-supervisionado, dimensionado para conjuntos de dados multi-objeto do mundo real e aplicável na tomada de decisões. O LPWM descobre autonomamente pontos-chave, caixas delimitadoras e máscaras de objetos diretamente a partir de dados de vídeo, permitindo-lhe aprender decomposições de cena ricas sem supervisão. A nossa arquitetura é treinada de ponta a ponta apenas a partir de vídeos e suporta condicionamento flexível com base em ações, linguagem e objetivos de imagem. O LPWM modela a dinâmica estocástica de partículas através de um novo módulo de ação latente e alcança resultados de última geração em diversos conjuntos de dados sintéticos e do mundo real. Para além da modelação estocástica de vídeo, o LPWM é prontamente aplicável à tomada de decisões, incluindo aprendizagem por imitação condicionada a objetivos, conforme demonstramos no artigo. Código, dados, modelos pré-treinados e sequências de vídeo estão disponíveis: https://taldatech.github.io/lpwm-web

English

We introduce Latent Particle World Model (LPWM), a self-supervised object-centric world model scaled to real-world multi-object datasets and applicable in decision-making. LPWM autonomously discovers keypoints, bounding boxes, and object masks directly from video data, enabling it to learn rich scene decompositions without supervision. Our architecture is trained end-to-end purely from videos and supports flexible conditioning on actions, language, and image goals. LPWM models stochastic particle dynamics via a novel latent action module and achieves state-of-the-art results on diverse real-world and synthetic datasets. Beyond stochastic video modeling, LPWM is readily applicable to decision-making, including goal-conditioned imitation learning, as we demonstrate in the paper. Code, data, pre-trained models and video rollouts are available: https://taldatech.github.io/lpwm-web