Когда доверять воображению: адаптивное выполнение действий для моделей действий в мире
When to Trust Imagination: Adaptive Action Execution for World Action Models
May 7, 2026
Авторы: Rui Wang, Yue Zhang, Jiehong Lin, Kuncheng Luo, Jianan Wang, Zhongrui Wang, Xiaojuan Qi
cs.AI
Аннотация
Модели мирового действия (World Action Models, WAM) недавно появились как перспективная парадигма для роботизированного манипулирования, совместно предсказывая будущие визуальные наблюдения и будущие действия. Однако современные WAM-модели обычно выполняют фиксированное количество предсказанных действий после каждого вывода модели, оставляя робота в неведении относительно того, остается ли воображаемое будущее согласованным с реальным физическим исполнением. В данной работе мы формулируем адаптивное выполнение WAM как проблему верификации будущего и реальности: робот должен выполнять действия дольше, когда предсказанное WAM будущее остается надежным, и перепланировать раньше, когда реальность отклоняется от воображения. С этой целью мы предлагаем Future Forward Dynamics Causal Attention (FFDC) — легковесный верификатор, который совместно анализирует предсказанные будущие действия, предсказанную визуальную динамику, реальные наблюдения и языковые инструкции, чтобы оценить, можно ли все еще доверять оставшемуся плану действий. FFDC позволяет адаптивно изменять размер порций действий как следствие согласованности предсказаний и наблюдений, сохраняя эффективность долгосрочного выполнения и восстанавливая реактивность на этапах, богатых контактами или сложных для исполнения. Мы также представляем обучение с смешением горизонтов (Mixture-of-Horizon Training) для улучшения покрытия долгосрочных траекторий при адаптивном выполнении. Эксперименты на бенчмарке RoboTwin и в реальном мире демонстрируют, что наш метод достигает оптимального баланса между надежностью и эффективностью: на RoboTwin он сокращает количество прямых проходов WAM на 69,10% и время выполнения на 34,02%, одновременно повышая процент успешных выполнений на 2,54% по сравнению с базовым методом с короткими порциями; в реальных экспериментах метод повышает процент успеха на 35%.
English
World Action Models (WAMs) have recently emerged as a promising paradigm for robotic manipulation by jointly predicting future visual observations and future actions. However, current WAMs typically execute a fixed number of predicted actions after each model inference, leaving the robot blind to whether the imagined future remains consistent with the actual physical rollout. In this work, we formulate adaptive WAM execution as a future-reality verification problem: the robot should execute longer when the WAM-predicted future remains reliable, and replan earlier when reality deviates from imagination. To this end, we propose Future Forward Dynamics Causal Attention (FFDC), a lightweight verifier that jointly reasons over predicted future actions, predicted visual dynamics, real observations, and language instructions to estimate whether the remaining action rollout can still be trusted. FFDC enables adaptive action chunk sizes as an emergent consequence of prediction-observation consistency, preserving the efficiency of long-horizon execution while restoring responsiveness in contact-rich or difficult phases. We further introduce Mixture-of-Horizon Training to improve long-horizon trajectory coverage for adaptive execution. Experiments on the RoboTwin benchmark and in the real world demonstrate that our method achieves a strong robustness-efficiency trade-off: on RoboTwin, it reduces WAM forward passes by 69.10% and execution time by 34.02%, while improving success rate by 2.54% over the short-chunk baseline; in real-world experiments, it improves success rate by 35%.