AHA-WAM: Modelado de Acción-Mundo Asíncrono y Adaptativo al Horizonte con Enrutamiento de Contexto Guiado por Observación

Resumen

Los modelos mundo-acción han surgido como un paradigma prometedor para la manipulación robótica, modelando conjuntamente la dinámica visual de la escena y las acciones para inyectar prioridades físicas en el aprendizaje de políticas. Sin embargo, los modelos mundo-acción existentes acoplan la predicción del mundo y la ejecución de acciones en la misma resolución temporal, lo que obliga a la rama del mundo a modelar variaciones de cuadros a corto plazo que son redundantes y débilmente informativas. Sostenemos que vincular estrictamente la predicción del mundo y la ejecución de acciones al mismo ritmo temporal puede subutilizar el potencial de la rama de video para el control encarnado. Por lo tanto, proponemos AHA-WAM, un Modelo Mundo-Acción Adaptativo al Horizonte Asíncrono construido sobre una arquitectura dual de Transformador de Difusión (DiT) que reorganiza el modelado mundo-acción en torno a esta asimetría temporal. AHA-WAM implementa el DiT de video como un planificador mundial de baja frecuencia que mantiene una memoria clave-valor continua sobre observaciones pasadas y expone un contexto latente reutilizable por capas que codifica la evolución de la escena a largo plazo, mientras que un DiT de acción de alta frecuencia ejecuta fragmentos de acción cortos en lazo cerrado mediante la consulta de este contexto a través de atención conjunta por capas. Para respaldar la ejecución asíncrona, introducimos el entrenamiento con desplazamiento adaptativo al horizonte y el Enrutamiento de Contexto de Video Guiado por Observaciones (OVCR), que en conjunto permiten al experto en acciones explotar el contexto mundial a largo plazo, permaneciendo al mismo tiempo sensible al estado de ejecución en tiempo real sin necesidad de re-ejecutar el DiT de video. Los experimentos en RoboTwin y tareas de manipulación en el mundo real muestran que AHA-WAM alcanza un rendimiento de vanguardia sin ningún preentrenamiento con datos robóticos, logrando una tasa de éxito promedio del 92.80% en RoboTwin y un 78.3% de éxito en 4 tareas del mundo real, mientras alcanza un control en lazo cerrado de 24.17 Hz con una aceleración de 4.59x con respecto a Fast-WAM.

English

World-action models have emerged as a promising paradigm for robot manipulation, jointly modeling visual scene dynamics and actions to inject physical priors into policy learning. However, existing world-action models couple world prediction and action execution at the same temporal resolution, forcing the world branch to model near-term frame variations that are redundant and weakly informative. We posit that strictly binding world prediction and action execution to the same temporal rhythm may underutilize the potential of the video branch for embodied control. Therefore, we propose AHA-WAM, an Asynchronous Horizon-Adaptive World-Action Model built on a dual Diffusion Transformer (DiT) architecture that reorganizes world-action modeling around this temporal asymmetry. AHA-WAM instantiates the video DiT as a low-frequency world planner that maintains rolling key-value memory over past observations and exposes reusable layerwise latent context encoding long-horizon scene evolution, while a high-frequency action DiT executes short action chunks in closed loop by querying this context through layerwise joint attention. To support asynchronous execution, we introduce horizon-adaptive offset training and Observation-Guided Video-Context Routing (OVCR), which together let the action expert exploit long-horizon world context while remaining responsive to real-time execution state without rerunning the video DiT. Experiments on RoboTwin and real-world manipulation tasks show that AHA-WAM achieves state-of-the-art performance without any robot-data pretraining, attaining 92.80% average success on RoboTwin and 78.3% success across 4 real-world tasks, while reaching 24.17 Hz closed-loop control with a 4.59x speedup over Fast-WAM.