Light-WAM: Modelos de Ação do Mundo Eficientes com Decodificação de Ação via Fusão de Estados

Resumo

Os Modelos de Ação Mundial (WAMs) estendem o aprendizado de políticas de robôs ao incorporar a previsão futura como um objetivo de treinamento adicional, incentivando a política a codificar estrutura temporal relevante para a tarefa em suas representações. Atualmente, os WAMs frequentemente dependem de arquiteturas generativas em larga escala que incorrem em altos custos de treinamento e latência de inferência, dificultando sua implantação como políticas eficientes de malha fechada. Propomos o Light-WAM, um Modelo de Ação Mundial leve para manipulação robótica eficiente. Especificamente, ele é construído com um backbone de vídeo compacto e realiza supervisão de vídeo futuro em um espaço latente subamostrado, reduzindo o custo do co-treinamento de vídeo enquanto mantém seus benefícios para o aprendizado de representação. Para previsão de ação, o Light-WAM introduz o StateFusionActionExpert, que lê estados adaptados de múltiplas camadas do backbone, os funde por meio de pooling de consultas aprendidas e prevê diretamente segmentos de ação em uma única passagem direta. Este design fornece uma interface eficiente entre representações de backbone de vídeo e ações de robô, evitando a necessidade de experts de ação generativos pesados. Experimentos demonstram que o Light-WAM mantém um desempenho robusto no LIBERO e alcança um desempenho multitarefa utilizável no RoboTwin 2.0, utilizando apenas 0,44B parâmetros treináveis. Ele também atinge 72,03 ms de latência de inferência com pico de memória GPU de 4,1 GiB e rendimento de treinamento melhorado.

English

World Action Models (WAMs) extend robot policy learning by incorporating future prediction as an additional training objective, encouraging the policy to encode task-relevant temporal structure in its representations. Current WAMs often rely on large-scale generative architectures that incur high training costs and inference latency, making them difficult to deploy as efficient closed-loop policies. We propose Light-WAM, a lightweight World Action Model for efficient robot manipulation. Specifically, it is built with a compact video backbone and performs future-video supervision in a downsampled latent space, reducing the cost of video co-training while retaining its benefits for representation learning. For action prediction, Light-WAM introduces the StateFusionActionExpert, which reads adapted states from multiple backbone layers, fuses them through learned-query pooling, and directly predicts action chunks in a single forward pass. This design provides an efficient interface between video backbone representations and robot actions, avoiding the need for heavy generative action experts. Experiments demonstrate that Light-WAM maintains strong performance on LIBERO and achieves usable multi-task performance on RoboTwin 2.0, while using only 0.44B trainable parameters. It also achieves 72.03ms inference latency with 4.1GiB peak GPU memory and improved training throughput.