AHA-WAM: Asynchrone horizontadaptive Welt-Aktions-Modellierung mit beobachtungsgeführtem Kontext-Routing

Zusammenfassung

Welt-Aktions-Modelle haben sich als vielversprechendes Paradigma für die Robotermanipulation etabliert, da sie visuelle Szenendynamik und Aktionen gemeinsam modellieren, um physikalische Vorannahmen in das Politiklernen einzubringen. Allerdings koppeln bestehende Welt-Aktions-Modelle die Vorhersage der Welt und die Ausführung von Aktionen auf derselben zeitlichen Auflösung, was den Weltzweig dazu zwingt, kurzfristige Bildvariationen zu modellieren, die redundant und wenig informativ sind. Wir vertreten die These, dass eine strikte Bindung von Weltvorhersage und Aktionsausführung an denselben zeitlichen Rhythmus das Potenzial des Videozweigs für die verkörperte Steuerung unterfordern könnte. Daher schlagen wir AHA-WAM vor, ein asynchrones, horisontadaptives Welt-Aktions-Modell, das auf einer dualen Diffusion-Transformer-Architektur (DiT) basiert und die Welt-Aktions-Modellierung um diese zeitliche Asymmetrie herum neu organisiert. AHA-WAM setzt den Video-DiT als niederfrequenten Weltplaner ein, der über vergangene Beobachtungen hinweg einen rollierenden Schlüssel-Wert-Speicher unterhält und wiederverwendbare, schichtweise latente Kontexte freigibt, die die langfristige Szenenentwicklung kodieren. Gleichzeitig führt ein hochfrequenter Aktions-DiT kurze Aktionsblöcke im geschlossenen Regelkreis aus, indem er über eine schichtweise gemeinsame Aufmerksamkeit auf diesen Kontext zugreift. Zur Unterstützung der asynchronen Ausführung führen wir ein horisontadaptives Offset-Training und eine beobachtungsgesteuerte Videokontext-Routinge (OVCR) ein, die es dem Aktions-Experten ermöglichen, langfristigen Weltkontext zu nutzen, während er gleichzeitig auf den Echtzeit-Ausführungszustand reagiert, ohne den Video-DiT erneut ausführen zu müssen. Experimente mit RoboTwin und realen Manipulationsaufgaben zeigen, dass AHA-WAM ohne jegliches Vortraining mit Roboterdaten eine Spitzenleistung erzielt: eine durchschnittliche Erfolgsrate von 92,80 % bei RoboTwin und 78,3 % Erfolg bei vier realen Aufgaben, während es eine geschlossene Regelkreissteuerung mit 24,17 Hz erreicht und eine 4,59-fache Beschleunigung gegenüber Fast-WAM erzielt.

English

World-action models have emerged as a promising paradigm for robot manipulation, jointly modeling visual scene dynamics and actions to inject physical priors into policy learning. However, existing world-action models couple world prediction and action execution at the same temporal resolution, forcing the world branch to model near-term frame variations that are redundant and weakly informative. We posit that strictly binding world prediction and action execution to the same temporal rhythm may underutilize the potential of the video branch for embodied control. Therefore, we propose AHA-WAM, an Asynchronous Horizon-Adaptive World-Action Model built on a dual Diffusion Transformer (DiT) architecture that reorganizes world-action modeling around this temporal asymmetry. AHA-WAM instantiates the video DiT as a low-frequency world planner that maintains rolling key-value memory over past observations and exposes reusable layerwise latent context encoding long-horizon scene evolution, while a high-frequency action DiT executes short action chunks in closed loop by querying this context through layerwise joint attention. To support asynchronous execution, we introduce horizon-adaptive offset training and Observation-Guided Video-Context Routing (OVCR), which together let the action expert exploit long-horizon world context while remaining responsive to real-time execution state without rerunning the video DiT. Experiments on RoboTwin and real-world manipulation tasks show that AHA-WAM achieves state-of-the-art performance without any robot-data pretraining, attaining 92.80% average success on RoboTwin and 78.3% success across 4 real-world tasks, while reaching 24.17 Hz closed-loop control with a 4.59x speedup over Fast-WAM.