LaWAM: Modelos de Acción del Mundo Latente para Políticas Robóticas Eficientes y Conscientes de la Dinámica

Resumen

Los modelos Visión-Lenguaje-Acción (VLAs) aprovechan el preentrenamiento visión-lenguaje a gran escala para el control robótico semántico, pero a menudo carecen de una previsión explícita sobre cómo las acciones del robot modifican la escena. Los Modelos Mundo-Acción (WAMs) abordan esta limitación condicionando las políticas a futuros predichos, aunque los enfoques existentes suelen depender de una costosa generación de video con una redundancia considerable a nivel de píxeles. Presentamos LaWAM, un Modelo Mundo-Acción Latente que expone la dinámica predictiva a las políticas del robot mediante subobjetivos visuales latentes compactos, en lugar de reconstruir video futuro. En el núcleo de LaWAM se encuentra un Modelo Mundo Latente (LaWM) condicionado a la acción latente. Obtenemos LaWM entrenando un modelo de acción latente en el espacio latente de un modelo fundacional de visión preentrenado y reutilizando su decodificador de avance para predecir características de observaciones futuras que representan la evolución de la escena. LaWAM condiciona entonces la generación de acciones en estos subobjetivos visuales latentes predichos para lograr un control robótico consciente de la dinámica. LaWAM alcanza tasas de éxito (SR) de última generación o competitivas en LIBERO (98.6% SR), RoboTwin (91.22% SR) y tareas de manipulación del mundo real, manteniendo una inferencia de baja latencia. LaWAM se ejecuta en 187 ms por predicción de bloque de acciones y logra una latencia de tiempo real hasta 24 veces menor que los WAMs en espacio de píxeles.

English

Vision-Language-Action models (VLAs) leverage large-scale vision-language pretraining for semantic robot control, but often lack explicit foresight into how robot actions change the scene. World-Action Models (WAMs) address this limitation by conditioning policies on predicted futures, yet existing approaches typically rely on computationally expensive video generation with substantial pixel-level redundancy. We present LaWAM, a Latent World Action Model that exposes predictive dynamics to robot policies through compact latent visual subgoals instead of reconstructed future video. At the core of LaWAM is a latent-action-conditioned Latent World Model (LaWM). We obtain LaWM by training a latent action model in the latent space of a pretrained vision foundation model and repurposing its forward decoder to predict future observation features for scene evolution. LaWAM then conditions action generation on these predicted latent visual subgoals to enable dynamics-aware robot control. LaWAM achieves state-of-the-art or competitive success rates (SRs) across LIBERO (98.6% SR), RoboTwin (91.22% SR), and real-world manipulation tasks while retaining low-latency inference. LaWAM runs in 187 ms per action-chunk prediction and achieves up to 24x lower wall-clock latency than pixel-space WAMs.