AHA-WAM: Modelagem Assíncrona de Ação-Mundo Adaptativa ao Horizonte com Roteamento de Contexto Guiado por Observação

Resumo

Modelos mundo-ação surgiram como um paradigma promissor para manipulação robótica, modelando conjuntamente a dinâmica visual da cena e as ações para injetar priors físicos no aprendizado de políticas. No entanto, modelos mundo-ação existentes acoplam a predição do mundo e a execução de ações na mesma resolução temporal, forçando o ramo do mundo a modelar variações de quadros de curto prazo que são redundantes e pouco informativas. Propomos que vincular estritamente a predição do mundo e a execução de ações ao mesmo ritmo temporal pode subutilizar o potencial do ramo de vídeo para controle incorporado. Portanto, propomos o AHA-WAM, um Modelo Mundo-Ação Assíncrono e Adaptativo por Horizonte, construído sobre uma arquitetura dupla de Transformer de Difusão (DiT) que reorganiza a modelagem mundo-ação em torno dessa assimetria temporal. O AHA-WAM instancia o DiT de vídeo como um planejador de mundo de baixa frequência que mantém uma memória contínua de chave-valor sobre observações passadas e expõe contexto latente reutilizável por camadas codificando a evolução da cena em horizonte longo, enquanto um DiT de ação de alta frequência executa pequenos blocos de ação em malha fechada consultando esse contexto por meio de atenção conjunta por camadas. Para suportar a execução assíncrona, introduzimos o treinamento com deslocamento adaptativo por horizonte e o Roteamento de Contexto de Vídeo Guiado por Observação (OVCR), que juntos permitem que o especialista em ação explore o contexto mundial de horizonte longo enquanto permanece responsivo ao estado de execução em tempo real sem reexecutar o DiT de vídeo. Experimentos no RoboTwin e em tarefas de manipulação no mundo real mostram que o AHA-WAM alcança desempenho de ponta sem qualquer pré-treinamento com dados robóticos, obtendo 92,80% de sucesso médio no RoboTwin e 78,3% de sucesso em 4 tarefas do mundo real, enquanto atinge controle em malha fechada de 24,17 Hz com um ganho de velocidade de 4,59x em relação ao Fast-WAM.

English

World-action models have emerged as a promising paradigm for robot manipulation, jointly modeling visual scene dynamics and actions to inject physical priors into policy learning. However, existing world-action models couple world prediction and action execution at the same temporal resolution, forcing the world branch to model near-term frame variations that are redundant and weakly informative. We posit that strictly binding world prediction and action execution to the same temporal rhythm may underutilize the potential of the video branch for embodied control. Therefore, we propose AHA-WAM, an Asynchronous Horizon-Adaptive World-Action Model built on a dual Diffusion Transformer (DiT) architecture that reorganizes world-action modeling around this temporal asymmetry. AHA-WAM instantiates the video DiT as a low-frequency world planner that maintains rolling key-value memory over past observations and exposes reusable layerwise latent context encoding long-horizon scene evolution, while a high-frequency action DiT executes short action chunks in closed loop by querying this context through layerwise joint attention. To support asynchronous execution, we introduce horizon-adaptive offset training and Observation-Guided Video-Context Routing (OVCR), which together let the action expert exploit long-horizon world context while remaining responsive to real-time execution state without rerunning the video DiT. Experiments on RoboTwin and real-world manipulation tasks show that AHA-WAM achieves state-of-the-art performance without any robot-data pretraining, attaining 92.80% average success on RoboTwin and 78.3% success across 4 real-world tasks, while reaching 24.17 Hz closed-loop control with a 4.59x speedup over Fast-WAM.