ChatPaper.aiChatPaper

Light-WAM: Эффективные мировые модели действий с декодированием действий на основе слияния состояний

Light-WAM: Efficient World Action Models with State-Fusion Action Decoding

June 6, 2026
Авторы: Ziang Li, Dongzhou Cheng, Yibin Wang, Shiyue Wang, Xiaoyang Xu, Lingxuan Weng, Juan Wang, Jiaqi Wang
cs.AI

Аннотация

Модели мировых действий (World Action Models, WAMs) расширяют обучение политики робота за счет включения прогнозирования будущего в качестве дополнительной целевой функции обучения, что побуждает политику кодировать в своих представлениях релевантную задаче временную структуру. Современные WAM часто опираются на крупномасштабные генеративные архитектуры, что приводит к высоким затратам на обучение и задержкам при выводе, затрудняя их развертывание в качестве эффективных политик с обратной связью. Мы предлагаем Light-WAM — легковесную модель мировых действий для эффективной манипуляции робота. В частности, она построена на основе компактной видеомагистрали и использует супервизию по будущим кадрам в пониженном латентном пространстве, что снижает затраты на совместное обучение с видео, сохраняя при этом его преимущества для обучения представлений. Для прогнозирования действий Light-WAM вводит StateFusionActionExpert, который считывает адаптированные состояния с нескольких слоев магистрали, объединяет их с помощью пулинга с обучаемыми запросами и напрямую предсказывает фрагменты действий за один прямой проход. Такая конструкция обеспечивает эффективный интерфейс между представлениями видеомагистрали и действиями робота, избегая необходимости в тяжелых генеративных экспертах действий. Эксперименты показывают, что Light-WAM сохраняет высокую производительность на LIBERO и достигает приемлемой многозадачной производительности на RoboTwin 2.0, используя при этом всего 0,44 млрд обучаемых параметров. Она также демонстрирует задержку вывода 72,03 мс при пиковом использовании памяти GPU 4,1 ГБ и улучшенную пропускную способность обучения.
English
World Action Models (WAMs) extend robot policy learning by incorporating future prediction as an additional training objective, encouraging the policy to encode task-relevant temporal structure in its representations. Current WAMs often rely on large-scale generative architectures that incur high training costs and inference latency, making them difficult to deploy as efficient closed-loop policies. We propose Light-WAM, a lightweight World Action Model for efficient robot manipulation. Specifically, it is built with a compact video backbone and performs future-video supervision in a downsampled latent space, reducing the cost of video co-training while retaining its benefits for representation learning. For action prediction, Light-WAM introduces the StateFusionActionExpert, which reads adapted states from multiple backbone layers, fuses them through learned-query pooling, and directly predicts action chunks in a single forward pass. This design provides an efficient interface between video backbone representations and robot actions, avoiding the need for heavy generative action experts. Experiments demonstrate that Light-WAM maintains strong performance on LIBERO and achieves usable multi-task performance on RoboTwin 2.0, while using only 0.44B trainable parameters. It also achieves 72.03ms inference latency with 4.1GiB peak GPU memory and improved training throughput.