LaWAM: Modelos de Ação de Mundo Latente para Políticas Robóticas Eficientes Conscientes da Dinâmica

Resumo

Modelos Visão-Linguagem-Ação (VLAs) aproveitam o pré-treinamento visão-linguagem em larga escala para controle semântico de robôs, mas frequentemente carecem de previsão explícita sobre como as ações do robô alteram a cena. Modelos Mundo-Ação (WAMs) abordam essa limitação ao condicionar políticas em futuros previstos, embora as abordagens existentes tipicamente dependam de geração computacionalmente custosa de vídeos com redundância substancial em nível de pixel. Apresentamos o LaWAM, um Modelo Mundo-Ação Latente que expõe dinâmicas preditivas a políticas robóticas por meio de subobjetivos visuais latentes compactos, em vez de reconstruir vídeos futuros. No núcleo do LaWAM está um Modelo Mundo Latente (LaWM) condicionado a ações latentes. Obtemos o LaWM treinando um modelo de ação latente no espaço latente de um modelo de visão fundamental pré-treinado e reaproveitando seu decodificador direto para prever características de observações futuras para a evolução da cena. O LaWAM, então, condiciona a geração de ações nesses subobjetivos visuais latentes previstos para viabilizar um controle robótico ciente da dinâmica. O LaWAM alcança taxas de sucesso (SRs) de estado-da-arte ou competitivas em tarefas LIBERO (98,6% SR), RoboTwin (91,22% SR) e manipulação no mundo real, mantendo inferência de baixa latência. O LaWAM opera em 187 ms por predição de bloco de ação e atinge até 24x menor latência de relógio de parede que WAMs baseados em espaço de pixels.

English

Vision-Language-Action models (VLAs) leverage large-scale vision-language pretraining for semantic robot control, but often lack explicit foresight into how robot actions change the scene. World-Action Models (WAMs) address this limitation by conditioning policies on predicted futures, yet existing approaches typically rely on computationally expensive video generation with substantial pixel-level redundancy. We present LaWAM, a Latent World Action Model that exposes predictive dynamics to robot policies through compact latent visual subgoals instead of reconstructed future video. At the core of LaWAM is a latent-action-conditioned Latent World Model (LaWM). We obtain LaWM by training a latent action model in the latent space of a pretrained vision foundation model and repurposing its forward decoder to predict future observation features for scene evolution. LaWAM then conditions action generation on these predicted latent visual subgoals to enable dynamics-aware robot control. LaWAM achieves state-of-the-art or competitive success rates (SRs) across LIBERO (98.6% SR), RoboTwin (91.22% SR), and real-world manipulation tasks while retaining low-latency inference. LaWAM runs in 187 ms per action-chunk prediction and achieves up to 24x lower wall-clock latency than pixel-space WAMs.