Cuándo Confiar en la Imaginación: Ejecución Adaptativa de Acciones para Modelos de Acción Mundial
When to Trust Imagination: Adaptive Action Execution for World Action Models
May 7, 2026
Autores: Rui Wang, Yue Zhang, Jiehong Lin, Kuncheng Luo, Jianan Wang, Zhongrui Wang, Xiaojuan Qi
cs.AI
Resumen
Los Modelos de Acción del Mundo (WAM) han surgido recientemente como un paradigma prometedor para la manipulación robótica al predecir conjuntamente observaciones visuales futuras y acciones futuras. Sin embargo, los WAM actuales suelen ejecutar un número fijo de acciones predichas después de cada inferencia del modelo, dejando al robot sin información sobre si el futuro imaginado sigue siendo coherente con el desarrollo físico real. En este trabajo, formulamos la ejecución adaptativa de WAM como un problema de verificación futuro-realidad: el robot debe ejecutar acciones durante más tiempo cuando el futuro predicho por el WAM sigue siendo fiable, y replanificar antes cuando la realidad se desvía de la imaginación. Con este fin, proponemos Future Forward Dynamics Causal Attention (FFDC), un verificador ligero que razona conjuntamente sobre las acciones futuras predichas, la dinámica visual predicha, las observaciones reales y las instrucciones de lenguaje para estimar si la ejecución restante de acciones aún puede ser confiable. FFDC permite tamaños de fragmentos de acción adaptativos como una consecuencia emergente de la coherencia entre predicción y observación, preservando la eficiencia de la ejecución de horizonte largo mientras restaura la capacidad de respuesta en fases con mucho contacto o difíciles. Además, introducimos el Entrenamiento de Mezcla de Horizontes para mejorar la cobertura de trayectorias de horizonte largo para la ejecución adaptativa. Los experimentos en el benchmark RoboTwin y en el mundo real demuestran que nuestro método logra un sólido equilibrio entre robustez y eficiencia: en RoboTwin, reduce las pasadas hacia adelante del WAM en un 69.10% y el tiempo de ejecución en un 34.02%, mientras mejora la tasa de éxito en un 2.54% respecto al baseline de fragmentos cortos; en experimentos del mundo real, mejora la tasa de éxito en un 35%.
English
World Action Models (WAMs) have recently emerged as a promising paradigm for robotic manipulation by jointly predicting future visual observations and future actions. However, current WAMs typically execute a fixed number of predicted actions after each model inference, leaving the robot blind to whether the imagined future remains consistent with the actual physical rollout. In this work, we formulate adaptive WAM execution as a future-reality verification problem: the robot should execute longer when the WAM-predicted future remains reliable, and replan earlier when reality deviates from imagination. To this end, we propose Future Forward Dynamics Causal Attention (FFDC), a lightweight verifier that jointly reasons over predicted future actions, predicted visual dynamics, real observations, and language instructions to estimate whether the remaining action rollout can still be trusted. FFDC enables adaptive action chunk sizes as an emergent consequence of prediction-observation consistency, preserving the efficiency of long-horizon execution while restoring responsiveness in contact-rich or difficult phases. We further introduce Mixture-of-Horizon Training to improve long-horizon trajectory coverage for adaptive execution. Experiments on the RoboTwin benchmark and in the real world demonstrate that our method achieves a strong robustness-efficiency trade-off: on RoboTwin, it reduces WAM forward passes by 69.10% and execution time by 34.02%, while improving success rate by 2.54% over the short-chunk baseline; in real-world experiments, it improves success rate by 35%.