AHA-WAM : Modélisation monde-action asynchrone à horizon adaptatif avec routage de contexte guidé par l'observation

Résumé

Les modèles monde-action sont devenus un paradigme prometteur pour la manipulation robotique, modélisant conjointement la dynamique visuelle de la scène et les actions afin d’injecter des a priori physiques dans l’apprentissage des politiques. Cependant, les modèles monde-action existants couplent la prédiction du monde et l’exécution d’actions à la même résolution temporelle, forçant la branche monde à modéliser des variations d’images à court terme qui sont redondantes et faiblement informatives. Nous postulons que lier strictement la prédiction du monde et l’exécution d’actions au même rythme temporel pourrait sous-utiliser le potentiel de la branche vidéo pour le contrôle incarné. C’est pourquoi nous proposons AHA-WAM, un modèle monde-action asynchrone et adaptatif à l’horizon, construit sur une architecture double transformateur de diffusion (DiT) qui réorganise la modélisation monde-action autour de cette asymétrie temporelle. AHA-WAM instancie le DiT vidéo en tant que planificateur du monde à basse fréquence qui maintient une mémoire clé-valeur glissante sur les observations passées et expose un contexte latent réutilisable par couche encodant l’évolution de la scène à long horizon, tandis qu’un DiT d’actions à haute fréquence exécute de courts segments d’actions en boucle fermée en interrogeant ce contexte via une attention conjointe par couche. Pour soutenir l’exécution asynchrone, nous introduisons l’entraînement par décalage adaptatif à l’horizon et le routage de contexte vidéo guidé par l’observation (OVCR), qui ensemble permettent à l’expert d’actions d’exploiter le contexte monde à long horizon tout en restant réactif à l’état d’exécution en temps réel sans réexécuter le DiT vidéo. Les expériences sur RoboTwin et des tâches de manipulation réelles montrent qu’AHA-WAM atteint des performances de pointe sans aucun pré‑entraînement sur des données robotiques, obtenant un succès moyen de 92,80 % sur RoboTwin et de 78,3 % sur quatre tâches réelles, tout en atteignant un contrôle en boucle fermée à 24,17 Hz avec une accélération de 4,59× par rapport à Fast‑WAM.

English

World-action models have emerged as a promising paradigm for robot manipulation, jointly modeling visual scene dynamics and actions to inject physical priors into policy learning. However, existing world-action models couple world prediction and action execution at the same temporal resolution, forcing the world branch to model near-term frame variations that are redundant and weakly informative. We posit that strictly binding world prediction and action execution to the same temporal rhythm may underutilize the potential of the video branch for embodied control. Therefore, we propose AHA-WAM, an Asynchronous Horizon-Adaptive World-Action Model built on a dual Diffusion Transformer (DiT) architecture that reorganizes world-action modeling around this temporal asymmetry. AHA-WAM instantiates the video DiT as a low-frequency world planner that maintains rolling key-value memory over past observations and exposes reusable layerwise latent context encoding long-horizon scene evolution, while a high-frequency action DiT executes short action chunks in closed loop by querying this context through layerwise joint attention. To support asynchronous execution, we introduce horizon-adaptive offset training and Observation-Guided Video-Context Routing (OVCR), which together let the action expert exploit long-horizon world context while remaining responsive to real-time execution state without rerunning the video DiT. Experiments on RoboTwin and real-world manipulation tasks show that AHA-WAM achieves state-of-the-art performance without any robot-data pretraining, attaining 92.80% average success on RoboTwin and 78.3% success across 4 real-world tasks, while reaching 24.17 Hz closed-loop control with a 4.59x speedup over Fast-WAM.