Light-WAM: Эффективные мировые модели действий с декодированием действий на основе слияния состояний

Аннотация

Модели мировых действий (World Action Models, WAMs) расширяют обучение политики робота за счет включения прогнозирования будущего в качестве дополнительной целевой функции обучения, что побуждает политику кодировать в своих представлениях релевантную задаче временную структуру. Современные WAM часто опираются на крупномасштабные генеративные архитектуры, что приводит к высоким затратам на обучение и задержкам при выводе, затрудняя их развертывание в качестве эффективных политик с обратной связью. Мы предлагаем Light-WAM — легковесную модель мировых действий для эффективной манипуляции робота. В частности, она построена на основе компактной видеомагистрали и использует супервизию по будущим кадрам в пониженном латентном пространстве, что снижает затраты на совместное обучение с видео, сохраняя при этом его преимущества для обучения представлений. Для прогнозирования действий Light-WAM вводит StateFusionActionExpert, который считывает адаптированные состояния с нескольких слоев магистрали, объединяет их с помощью пулинга с обучаемыми запросами и напрямую предсказывает фрагменты действий за один прямой проход. Такая конструкция обеспечивает эффективный интерфейс между представлениями видеомагистрали и действиями робота, избегая необходимости в тяжелых генеративных экспертах действий. Эксперименты показывают, что Light-WAM сохраняет высокую производительность на LIBERO и достигает приемлемой многозадачной производительности на RoboTwin 2.0, используя при этом всего 0,44 млрд обучаемых параметров. Она также демонстрирует задержку вывода 72,03 мс при пиковом использовании памяти GPU 4,1 ГБ и улучшенную пропускную способность обучения.

English

World Action Models (WAMs) extend robot policy learning by incorporating future prediction as an additional training objective, encouraging the policy to encode task-relevant temporal structure in its representations. Current WAMs often rely on large-scale generative architectures that incur high training costs and inference latency, making them difficult to deploy as efficient closed-loop policies. We propose Light-WAM, a lightweight World Action Model for efficient robot manipulation. Specifically, it is built with a compact video backbone and performs future-video supervision in a downsampled latent space, reducing the cost of video co-training while retaining its benefits for representation learning. For action prediction, Light-WAM introduces the StateFusionActionExpert, which reads adapted states from multiple backbone layers, fuses them through learned-query pooling, and directly predicts action chunks in a single forward pass. This design provides an efficient interface between video backbone representations and robot actions, avoiding the need for heavy generative action experts. Experiments demonstrate that Light-WAM maintains strong performance on LIBERO and achieves usable multi-task performance on RoboTwin 2.0, while using only 0.44B trainable parameters. It also achieves 72.03ms inference latency with 4.1GiB peak GPU memory and improved training throughput.