LaWAM: Latente Welt-Aktionsmodelle für effiziente dynamikbewusste Roboterpolitiken

Zusammenfassung

Vision-Language-Action-Modelle (VLAs) nutzen groß angelegtes Vision-Language-Pretraining für semantische Robotersteuerung, entbehren jedoch oft einer expliziten Voraussicht darüber, wie Roboteraktionen die Szene verändern. Welt-Aktions-Modelle (World-Action Models, WAMs) beheben diese Einschränkung, indem sie Policies auf vorhergesagte Zukünfte konditionieren, doch bestehende Ansätze basieren typischerweise auf rechenintensiver Videogenerierung mit erheblicher Pixel-Redundanz. Wir stellen LaWAM vor, ein Latentes-Welt-Aktions-Modell, das robotischen Policies predictive Dynamiken durch kompakte latente visuelle Teilziele anstelle von rekonstruiertem Zukunftsvideo zugänglich macht. Kern von LaWAM ist ein latent-aktionskonditioniertes Latentes-Welt-Modell (Latent World Model, LaWM). Wir gewinnen LaWM, indem wir ein latentes Aktionsmodell im latenten Raum eines vortrainierten Vision-Foundation-Modells trainieren und dessen Vorwärts-Decoder umfunktionieren, um zukünftige Observationsmerkmale für die Szenenentwicklung vorherzusagen. LaWAM konditioniert dann die Aktionsgenerierung auf diese vorhergesagten latenten visuellen Teilziele, um eine dynamikbewusste Robotersteuerung zu ermöglichen. LaWAM erzielt überdurchschnittliche oder konkurrierende Erfolgsraten (Success Rates, SRs) bei LIBERO (98,6 % SR), RoboTwin (91,22 % SR) und realen Manipulationsaufgaben, während es eine niedrige Inferenzlatenz beibehält. LaWAM läuft in 187 ms pro Aktions-Chunk-Vorhersage und erreicht eine bis zu 24-fach niedrigere Wanduhr-Latenz als Pixel-Raum-WAMs.

English

Vision-Language-Action models (VLAs) leverage large-scale vision-language pretraining for semantic robot control, but often lack explicit foresight into how robot actions change the scene. World-Action Models (WAMs) address this limitation by conditioning policies on predicted futures, yet existing approaches typically rely on computationally expensive video generation with substantial pixel-level redundancy. We present LaWAM, a Latent World Action Model that exposes predictive dynamics to robot policies through compact latent visual subgoals instead of reconstructed future video. At the core of LaWAM is a latent-action-conditioned Latent World Model (LaWM). We obtain LaWM by training a latent action model in the latent space of a pretrained vision foundation model and repurposing its forward decoder to predict future observation features for scene evolution. LaWAM then conditions action generation on these predicted latent visual subgoals to enable dynamics-aware robot control. LaWAM achieves state-of-the-art or competitive success rates (SRs) across LIBERO (98.6% SR), RoboTwin (91.22% SR), and real-world manipulation tasks while retaining low-latency inference. LaWAM runs in 187 ms per action-chunk prediction and achieves up to 24x lower wall-clock latency than pixel-space WAMs.