Wanneer te Vertrouwen op Verbeelding: Adaptieve Actie-uitvoering voor Wereldactiemodellen
When to Trust Imagination: Adaptive Action Execution for World Action Models
May 7, 2026
Auteurs: Rui Wang, Yue Zhang, Jiehong Lin, Kuncheng Luo, Jianan Wang, Zhongrui Wang, Xiaojuan Qi
cs.AI
Samenvatting
Wereldactiemodellen (WAMs) zijn recent naar voren gekomen als een veelbelovend paradigma voor robotmanipulatie door gezamenlijk toekomstige visuele waarnemingen en toekomstige acties te voorspellen. Huidige WAMs voeren echter typisch een vast aantal voorspelde acties uit na elke modelinferentie, waardoor de robot geen inzicht heeft in of de voorgestelde toekomst consistent blijft met de daadwerkelijke fysieke uitrol. In dit werk formuleren we adaptieve WAM-uitvoering als een toekomst-realiteit-verificatieprobleem: de robot zou langer moeten uitvoeren wanneer de door de WAM voorspelde toekomst betrouwbaar blijft, en eerder opnieuw moeten plannen wanneer de realiteit afwijkt van de verbeelding. Hiertoe stellen we Future Forward Dynamics Causal Attention (FFDC) voor, een lichtgewicht verifier die gezamenlijk redeneert over voorspelde toekomstige acties, voorspelde visuele dynamiek, werkelijke waarnemingen en taal instructies om in te schatten of de resterende actie-uitrol nog steeds vertrouwd kan worden. FFDC maakt adaptieve actiebroedtes mogelijk als een emergent gevolg van voorspellings-waarnemingsconsistentie, waardoor de efficiëntie van lange-termijn uitvoering behouden blijft terwijl de responsiviteit wordt hersteld in contactrijke of moeilijke fasen. We introduceren verder Mixture-of-Horizon Training om de dekking van lange-termijn trajecten voor adaptieve uitvoering te verbeteren. Experimenten op de RoboTwin-benchmark en in de echte wereld tonen aan dat onze methode een sterke robuustheid-efficiëntie afweging bereikt: op RoboTwin vermindert het WAM forward passes met 69.10% en uitvoeringstijd met 34.02%, terwijl het slagingspercentage met 2.54% verbetert ten opzichte van de short-chunk baseline; in experimenten in de echte wereld verbetert het het slagingspercentage met 35%.
English
World Action Models (WAMs) have recently emerged as a promising paradigm for robotic manipulation by jointly predicting future visual observations and future actions. However, current WAMs typically execute a fixed number of predicted actions after each model inference, leaving the robot blind to whether the imagined future remains consistent with the actual physical rollout. In this work, we formulate adaptive WAM execution as a future-reality verification problem: the robot should execute longer when the WAM-predicted future remains reliable, and replan earlier when reality deviates from imagination. To this end, we propose Future Forward Dynamics Causal Attention (FFDC), a lightweight verifier that jointly reasons over predicted future actions, predicted visual dynamics, real observations, and language instructions to estimate whether the remaining action rollout can still be trusted. FFDC enables adaptive action chunk sizes as an emergent consequence of prediction-observation consistency, preserving the efficiency of long-horizon execution while restoring responsiveness in contact-rich or difficult phases. We further introduce Mixture-of-Horizon Training to improve long-horizon trajectory coverage for adaptive execution. Experiments on the RoboTwin benchmark and in the real world demonstrate that our method achieves a strong robustness-efficiency trade-off: on RoboTwin, it reduces WAM forward passes by 69.10% and execution time by 34.02%, while improving success rate by 2.54% over the short-chunk baseline; in real-world experiments, it improves success rate by 35%.