AHA-WAM: Асинхронное горизонтно-адаптивное моделирование мира и действий с маршрутизацией контекста, управляемой наблюдениями

Аннотация

Модели «мир-действие» стали перспективной парадигмой для роботизированных манипуляций, совместно моделируя визуальную динамику сцены и действия для внедрения физических априорных знаний в обучение политик. Однако существующие модели «мир-действие» связывают прогнозирование мира и выполнение действий с одинаковым временным разрешением, вынуждая ветвь мира моделировать краткосрочные изменения кадров, которые избыточны и слабо информативны. Мы предполагаем, что жесткое связывание прогнозирования мира и выполнения действий с одним временным ритмом может недоиспользовать потенциал видеоветви для воплощенного управления. Поэтому мы предлагаем AHA-WAM — асинхронную модель «мир-действие» с адаптивным горизонтом, построенную на архитектуре с двумя диффузионными трансформерами (DiT), которая перестраивает моделирование «мир-действие» вокруг этой временной асимметрии. AHA-WAM реализует видеотрансформер DiT в качестве низкочастотного планировщика мира, который поддерживает скользящую память ключ-значение по прошлым наблюдениям и предоставляет повторно используемый послойный латентный контекст, кодирующий долгосрочную эволюцию сцены, в то время как высокочастотный трансформер DiT действий выполняет короткие блоки действий в замкнутом контуре, запрашивая этот контекст через послойное совместное внимание. Для поддержки асинхронного выполнения мы вводим обучение со смещением, адаптируемым по горизонту, и маршрутизацию видеоконтекста, направляемую наблюдениями (OVCR), которые совместно позволяют эксперту действий использовать долгосрочный контекст мира, оставаясь при этом отзывчивым к состоянию выполнения в реальном времени без повторного запуска видеотрансформера DiT. Эксперименты на RoboTwin и задачах манипуляции в реальном мире показывают, что AHA-WAM достигает передовых результатов без какого-либо предварительного обучения на роботизированных данных, достигая 92,80% среднего успеха на RoboTwin и 78,3% успеха на 4 задачах реального мира, а также обеспечивая управление в замкнутом контуре с частотой 24,17 Гц с ускорением в 4,59 раза по сравнению с Fast-WAM.

English

World-action models have emerged as a promising paradigm for robot manipulation, jointly modeling visual scene dynamics and actions to inject physical priors into policy learning. However, existing world-action models couple world prediction and action execution at the same temporal resolution, forcing the world branch to model near-term frame variations that are redundant and weakly informative. We posit that strictly binding world prediction and action execution to the same temporal rhythm may underutilize the potential of the video branch for embodied control. Therefore, we propose AHA-WAM, an Asynchronous Horizon-Adaptive World-Action Model built on a dual Diffusion Transformer (DiT) architecture that reorganizes world-action modeling around this temporal asymmetry. AHA-WAM instantiates the video DiT as a low-frequency world planner that maintains rolling key-value memory over past observations and exposes reusable layerwise latent context encoding long-horizon scene evolution, while a high-frequency action DiT executes short action chunks in closed loop by querying this context through layerwise joint attention. To support asynchronous execution, we introduce horizon-adaptive offset training and Observation-Guided Video-Context Routing (OVCR), which together let the action expert exploit long-horizon world context while remaining responsive to real-time execution state without rerunning the video DiT. Experiments on RoboTwin and real-world manipulation tasks show that AHA-WAM achieves state-of-the-art performance without any robot-data pretraining, attaining 92.80% average success on RoboTwin and 78.3% success across 4 real-world tasks, while reaching 24.17 Hz closed-loop control with a 4.59x speedup over Fast-WAM.