LaWAM: Latente Wereldactiemodellen voor Efficiënte Dynamiekbewuste Robotstrategieën

Samenvatting

Visie-Taal-Actiemodellen (Vision-Language-Action models, VLA's) maken gebruik van grootschalige visie-taaltraining voor semantische robotbesturing, maar missen vaak een expliciet vooruitzicht op hoe robotacties de scene veranderen. Wereld-Actiemodellen (World-Action Models, WAM's) pakken deze beperking aan door beleidsregels te conditioneren op voorspelde toekomsten, maar bestaande benaderingen vertrouwen doorgaans op rekenintensieve videogeneratie met aanzienlijke pixelredundantie. Wij presenteren LaWAM, een latent wereldactiemodel (Latent World Action Model) dat voorspellende dynamiek beschikbaar maakt voor robotbeleidsregels via compacte latente visuele subdoelen in plaats van gereconstrueerde toekomstvideo. De kern van LaWAM is een latent-actiegeconditioneerd latent wereldmodel (Latent World Model, LaWM). We verkrijgen LaWM door een latent actiemodel te trainen in de latente ruimte van een voorgetraind visiefoundationmodel en de voorwaartse decoder ervan te hergebruiken om toekomstige observatiekenmerken voor scene-evolutie te voorspellen. LaWAM conditioneert vervolgens de actiegeneratie op deze voorspelde latente visuele subdoelen om dynamiekbewuste robotbesturing mogelijk te maken. LaWAM behaalt state-of-the-art of concurrerende succespercentages (success rates, SR's) op LIBERO (98,6% SR), RoboTwin (91,22% SR) en real-world manipulatieopdrachten, terwijl het een lage inferentielatentie behoudt. LaWAM werkt in 187 ms per actiechunkvoorspelling en behaalt een tot 24x lagere wandkloklatieg (wall-clock latency) dan pixelruimte-WAM's.

English

Vision-Language-Action models (VLAs) leverage large-scale vision-language pretraining for semantic robot control, but often lack explicit foresight into how robot actions change the scene. World-Action Models (WAMs) address this limitation by conditioning policies on predicted futures, yet existing approaches typically rely on computationally expensive video generation with substantial pixel-level redundancy. We present LaWAM, a Latent World Action Model that exposes predictive dynamics to robot policies through compact latent visual subgoals instead of reconstructed future video. At the core of LaWAM is a latent-action-conditioned Latent World Model (LaWM). We obtain LaWM by training a latent action model in the latent space of a pretrained vision foundation model and repurposing its forward decoder to predict future observation features for scene evolution. LaWAM then conditions action generation on these predicted latent visual subgoals to enable dynamics-aware robot control. LaWAM achieves state-of-the-art or competitive success rates (SRs) across LIBERO (98.6% SR), RoboTwin (91.22% SR), and real-world manipulation tasks while retaining low-latency inference. LaWAM runs in 187 ms per action-chunk prediction and achieves up to 24x lower wall-clock latency than pixel-space WAMs.