Quand se fier à l'imagination : exécution adaptative des actions pour les modèles d'action du monde

Résumé

Les Modèles d'Action Mondiaux (WAMs) sont récemment apparus comme un paradigme prometteur pour la manipulation robotique en prédisant conjointement les observations visuelles futures et les actions futures. Cependant, les WAMs actuels exécutent typiquement un nombre fixe d'actions prédites après chaque inférence du modèle, laissant le robot ignorant de la cohérence entre l'avenir imaginé et le déroulement physique réel. Dans ce travail, nous formulons l'exécution adaptative des WAMs comme un problème de vérification futur-réalité : le robot doit exécuter plus longtemps lorsque le futur prédit par le WAM reste fiable, et replanifier plus tôt lorsque la réalité dévie de l'imagination. À cette fin, nous proposons Future Forward Dynamics Causal Attention (FFDC), un vérificateur léger qui raisonne conjointement sur les actions futures prédites, la dynamique visuelle prédite, les observations réelles et les instructions langagières pour estimer si le déploiement des actions restantes peut encore être considéré comme fiable. FFDC permet des tailles de blocs d'action adaptatives comme une conséquence émergente de la cohérence prédiction-observation, préservant l'efficacité de l'exécution à long terme tout en restaurant la réactivité dans les phases riches en contacts ou difficiles. Nous introduisons également l'Entraînement par Mélange d'Horizons pour améliorer la couverture des trajectoires à long horizon pour une exécution adaptative. Les expériences sur le benchmark RoboTwin et dans le monde réel démontrent que notre méthode atteint un fort compromis robustesse-efficacité : sur RoboTwin, elle réduit les passes avant des WAMs de 69,10 % et le temps d'exécution de 34,02 %, tout en améliorant le taux de réussite de 2,54 % par rapport à la baseline à blocs courts ; dans les expériences en monde réel, elle améliore le taux de réussite de 35 %.

English

World Action Models (WAMs) have recently emerged as a promising paradigm for robotic manipulation by jointly predicting future visual observations and future actions. However, current WAMs typically execute a fixed number of predicted actions after each model inference, leaving the robot blind to whether the imagined future remains consistent with the actual physical rollout. In this work, we formulate adaptive WAM execution as a future-reality verification problem: the robot should execute longer when the WAM-predicted future remains reliable, and replan earlier when reality deviates from imagination. To this end, we propose Future Forward Dynamics Causal Attention (FFDC), a lightweight verifier that jointly reasons over predicted future actions, predicted visual dynamics, real observations, and language instructions to estimate whether the remaining action rollout can still be trusted. FFDC enables adaptive action chunk sizes as an emergent consequence of prediction-observation consistency, preserving the efficiency of long-horizon execution while restoring responsiveness in contact-rich or difficult phases. We further introduce Mixture-of-Horizon Training to improve long-horizon trajectory coverage for adaptive execution. Experiments on the RoboTwin benchmark and in the real world demonstrate that our method achieves a strong robustness-efficiency trade-off: on RoboTwin, it reduces WAM forward passes by 69.10% and execution time by 34.02%, while improving success rate by 2.54% over the short-chunk baseline; in real-world experiments, it improves success rate by 35%.

Quand se fier à l'imagination : exécution adaptative des actions pour les modèles d'action du monde

When to Trust Imagination: Adaptive Action Execution for World Action Models

Résumé

Support