Light-WAM: Effiziente World-Action-Modelle mit State-Fusion-Aktionsdekodierung

Zusammenfassung

Weltaktionsmodelle (WAMs) erweitern das Erlernen von Roboterpolitiken, indem sie die Vorhersage zukünftiger Zustände als zusätzliches Trainingsziel einbeziehen, was die Politik dazu anregt, aufgabenrelevante zeitliche Strukturen in ihren Repräsentationen zu kodieren. Aktuelle WAMs basieren oft auf groß angelegten generativen Architekturen, die hohe Trainingskosten und Inferenzlatenz verursachen, was ihre Bereitstellung als effiziente Closed-Loop-Politiken erschwert. Wir schlagen Light-WAM vor, ein leichtgewichtiges Weltaktionsmodell für effiziente Robotermanipulation. Konkret baut es auf einem kompakten Video-Backbone auf und führt eine Überwachung durch zukünftige Videos in einem heruntergetasteten latenten Raum durch, wodurch die Kosten des Video-Co-Trainings gesenkt werden, während seine Vorteile für das Repräsentationslernen erhalten bleiben. Für die Aktionsvorhersage führt Light-WAM den StateFusionActionExpert ein, der angepasste Zustände aus mehreren Backbone-Schichten liest, sie durch Pooling mit gelernten Abfragen fusioniert und in einem einzigen Vorwärtsdurchlauf direkt Aktionsblöcke vorhersagt. Dieses Design bietet eine effiziente Schnittstelle zwischen Video-Backbone-Repräsentationen und Roboteraktionen und vermeidet die Notwendigkeit schwerer generativer Aktions-Experten. Experimente zeigen, dass Light-WAM eine starke Leistung auf LIBERO beibehält und eine nutzbare Multitasking-Leistung auf RoboTwin 2.0 erreicht, wobei es nur 0,44 Mrd. trainierbare Parameter verwendet. Es erreicht zudem eine Inferenzlatenz von 72,03 ms bei einem Spitzen-GPU-Speicher von 4,1 GiB und einem verbesserten Trainingsdurchsatz.

English

World Action Models (WAMs) extend robot policy learning by incorporating future prediction as an additional training objective, encouraging the policy to encode task-relevant temporal structure in its representations. Current WAMs often rely on large-scale generative architectures that incur high training costs and inference latency, making them difficult to deploy as efficient closed-loop policies. We propose Light-WAM, a lightweight World Action Model for efficient robot manipulation. Specifically, it is built with a compact video backbone and performs future-video supervision in a downsampled latent space, reducing the cost of video co-training while retaining its benefits for representation learning. For action prediction, Light-WAM introduces the StateFusionActionExpert, which reads adapted states from multiple backbone layers, fuses them through learned-query pooling, and directly predicts action chunks in a single forward pass. This design provides an efficient interface between video backbone representations and robot actions, avoiding the need for heavy generative action experts. Experiments demonstrate that Light-WAM maintains strong performance on LIBERO and achieves usable multi-task performance on RoboTwin 2.0, while using only 0.44B trainable parameters. It also achieves 72.03ms inference latency with 4.1GiB peak GPU memory and improved training throughput.