Light-WAM : Modèles d'Action du Monde Efficaces avec Décodage d'Action par Fusion d'États

Résumé

Les World Action Models (WAMs) étendent l'apprentissage de politiques robotiques en intégrant la prédiction future comme objectif d'entraînement supplémentaire, ce qui encourage la politique à encoder la structure temporelle pertinente pour la tâche dans ses représentations. Les WAMs actuels reposent souvent sur des architectures génératives à grande échelle, entraînant des coûts d'entraînement élevés et une latence d'inférence importante, ce qui les rend difficiles à déployer en tant que politiques en boucle fermée efficaces. Nous proposons Light-WAM, un World Action Model léger pour la manipulation robotique efficace. Plus précisément, il est construit avec un backbone vidéo compact et effectue une supervision vidéo future dans un espace latent sous-échantillonné, réduisant ainsi le coût du co-entraînement vidéo tout en conservant ses avantages pour l'apprentissage de représentations. Pour la prédiction d'actions, Light-WAM introduit StateFusionActionExpert, qui lit les états adaptés depuis plusieurs couches du backbone, les fusionne via un pooling par requêtes apprises, et prédit directement des blocs d'actions en un seul passage avant. Cette conception fournit une interface efficace entre les représentations du backbone vidéo et les actions robotiques, évitant le recours à des experts d'action génératifs lourds. Les expériences montrent que Light-WAM maintient de bonnes performances sur LIBERO et atteint des performances multitâches utilisables sur RoboTwin 2.0, tout en n'utilisant que 0,44 milliard de paramètres entraînables. Il atteint également une latence d'inférence de 72,03 ms avec un pic de mémoire GPU de 4,1 Gio et un débit d'entraînement amélioré.

English

World Action Models (WAMs) extend robot policy learning by incorporating future prediction as an additional training objective, encouraging the policy to encode task-relevant temporal structure in its representations. Current WAMs often rely on large-scale generative architectures that incur high training costs and inference latency, making them difficult to deploy as efficient closed-loop policies. We propose Light-WAM, a lightweight World Action Model for efficient robot manipulation. Specifically, it is built with a compact video backbone and performs future-video supervision in a downsampled latent space, reducing the cost of video co-training while retaining its benefits for representation learning. For action prediction, Light-WAM introduces the StateFusionActionExpert, which reads adapted states from multiple backbone layers, fuses them through learned-query pooling, and directly predicts action chunks in a single forward pass. This design provides an efficient interface between video backbone representations and robot actions, avoiding the need for heavy generative action experts. Experiments demonstrate that Light-WAM maintains strong performance on LIBERO and achieves usable multi-task performance on RoboTwin 2.0, while using only 0.44B trainable parameters. It also achieves 72.03ms inference latency with 4.1GiB peak GPU memory and improved training throughput.