LaWAM : Modèles d'Action de Monde Latent pour des Politiques Robotiques Efficaces et Conscientes de la Dynamique

Résumé

Les modèles Vision-Langage-Action (VLA) exploitent le pré-entraînement vision-langage à grande échelle pour le contrôle sémantique des robots, mais manquent souvent d'une anticipation explicite de la manière dont les actions robotiques modifient la scène. Les modèles Monde-Action (WAM) répondent à cette limitation en conditionnant les politiques sur des futurs prédits, bien que les approches existantes reposent généralement sur une génération vidéo coûteuse en calcul avec une redondance substantielle au niveau des pixels. Nous présentons LaWAM, un modèle d'action latent mondial qui expose la dynamique prédictive aux politiques robotiques via des sous-objectifs visuels latents compacts, plutôt que par une reconstruction vidéo future. Au cœur de LaWAM se trouve un modèle mondial latent (LaWM) conditionné par des actions latentes. Nous obtenons LaWM en entraînant un modèle d'action latent dans l'espace latent d'un modèle de vision fondamental pré-entraîné, et en réaffectant son décodeur avant pour prédire les caractéristiques d'observation futures afin de rendre compte de l'évolution de la scène. LaWAM conditionne ensuite la génération d'actions sur ces sous-objectifs visuels latents prédits, permettant ainsi un contrôle robotique conscient de la dynamique. LaWAM atteint des taux de succès (TS) à la pointe ou compétitifs sur LIBERO (98,6 % de TS), RoboTwin (91,22 % de TS) et des tâches de manipulation en environnement réel, tout en conservant une inférence à faible latence. LaWAM s'exécute en 187 ms par prédiction de bloc d'actions et atteint une latence murale jusqu'à 24 fois inférieure à celle des WAM basés sur les pixels.

English

Vision-Language-Action models (VLAs) leverage large-scale vision-language pretraining for semantic robot control, but often lack explicit foresight into how robot actions change the scene. World-Action Models (WAMs) address this limitation by conditioning policies on predicted futures, yet existing approaches typically rely on computationally expensive video generation with substantial pixel-level redundancy. We present LaWAM, a Latent World Action Model that exposes predictive dynamics to robot policies through compact latent visual subgoals instead of reconstructed future video. At the core of LaWAM is a latent-action-conditioned Latent World Model (LaWM). We obtain LaWM by training a latent action model in the latent space of a pretrained vision foundation model and repurposing its forward decoder to predict future observation features for scene evolution. LaWAM then conditions action generation on these predicted latent visual subgoals to enable dynamics-aware robot control. LaWAM achieves state-of-the-art or competitive success rates (SRs) across LIBERO (98.6% SR), RoboTwin (91.22% SR), and real-world manipulation tasks while retaining low-latency inference. LaWAM runs in 187 ms per action-chunk prediction and achieves up to 24x lower wall-clock latency than pixel-space WAMs.