LaWAM: Модели латентных мировых действий для эффективных политик роботов, учитывающих динамику

Аннотация

Модели «видение-язык-действие» (Vision-Language-Action models, VLA) используют крупномасштабное предобучение на данных «видение-язык» для семантического управления роботами, но зачастую лишены явного предвидения того, как действия робота изменяют сцену. Модели «мир-действие» (World-Action Models, WAM) устраняют это ограничение, обусловливая политики предсказанными будущими состояниями, однако существующие подходы обычно опираются на вычислительно затратную генерацию видео со значительной избыточностью на уровне пикселей. Мы представляем LaWAM — скрытую мировую модель действия (Latent World Action Model), которая предоставляет роботизированным политикам предсказательную динамику через компактные скрытые визуальные подцели, а не через реконструированное будущее видео. В основе LaWAM лежит обусловленная скрытыми действиями скрытая мировая модель (Latent World Model, LaWM). Мы получаем LaWM, обучая модель скрытых действий в латентном пространстве предобученной фундаментальной модели зрения и переназначая её прямой декодер для предсказания признаков будущих наблюдений с целью эволюции сцены. Затем LaWAM обусловливает генерацию действий этими предсказанными скрытыми визуальными подцелями, обеспечивая управление роботом, учитывающее динамику. LaWAM достигает современных или конкурентоспособных показателей успешности (success rates, SR) в задачах LIBERO (98.6% SR), RoboTwin (91.22% SR) и в манипуляциях в реальном мире, сохраняя при этом инференс с низкой задержкой. LaWAM выполняет предсказание одного чанка действий за 187 мс и достигает до 24-кратного снижения задержки по реальному времени по сравнению с WAM в пространстве пикселей.

English

Vision-Language-Action models (VLAs) leverage large-scale vision-language pretraining for semantic robot control, but often lack explicit foresight into how robot actions change the scene. World-Action Models (WAMs) address this limitation by conditioning policies on predicted futures, yet existing approaches typically rely on computationally expensive video generation with substantial pixel-level redundancy. We present LaWAM, a Latent World Action Model that exposes predictive dynamics to robot policies through compact latent visual subgoals instead of reconstructed future video. At the core of LaWAM is a latent-action-conditioned Latent World Model (LaWM). We obtain LaWM by training a latent action model in the latent space of a pretrained vision foundation model and repurposing its forward decoder to predict future observation features for scene evolution. LaWAM then conditions action generation on these predicted latent visual subgoals to enable dynamics-aware robot control. LaWAM achieves state-of-the-art or competitive success rates (SRs) across LIBERO (98.6% SR), RoboTwin (91.22% SR), and real-world manipulation tasks while retaining low-latency inference. LaWAM runs in 187 ms per action-chunk prediction and achieves up to 24x lower wall-clock latency than pixel-space WAMs.