Wann der Vorstellung zu vertrauen ist: Adaptive Aktionsausführung für Weltaktionsmodelle

Zusammenfassung

World Action Models (WAMs) haben sich kürzlich als vielversprechendes Paradigma für die robotische Manipulation etabliert, indem sie zukünftige visuelle Beobachtungen und zukünftige Aktionen gemeinsam vorhersagen. Allerdings führen aktuelle WAMs typischerweise eine festgelegte Anzahl vorhergesagter Aktionen nach jedem Modell-Inferenzschritt aus, wodurch das System blind dafür bleibt, ob die imaginierte Zukunft mit dem tatsächlichen physischen Ablauf übereinstimmt. In dieser Arbeit formulieren wir die adaptive WAM-Ausführung als ein Future-Reality-Verification-Problem: Der Roboter sollte länger agieren, wenn die WAM-vorhergesagte Zukunft zuverlässig bleibt, und früher neu planen, wenn die Realität von der Vorstellung abweicht. Zu diesem Zweck schlagen wir Future Forward Dynamics Causal Attention (FFDC) vor, einen leichtgewichtigen Verifizierer, der gemeinsam über vorhergesagte zukünftige Aktionen, vorhergesagte visuelle Dynamik, reale Beobachtungen und Sprachinstruktionen schlussfolgert, um abzuschätzen, ob den verbleibenden Ausführungsaktionen noch vertraut werden kann. FFDC ermöglicht adaptive Aktionsblockgrößen als emergente Konsequenz der Vorhersage-Beobachtungs-Konsistenz, was die Effizienz der langfristigen Ausführung erhält und gleichzeitig die Reaktionsfähigkeit in kontaktintensiven oder schwierigen Phasen wiederherstellt. Wir führen außerdem Mixture-of-Horizon Training ein, um die Abdeckung langfristiger Trajektorien für die adaptive Ausführung zu verbessern. Experimente auf dem RoboTwin-Benchmark und in der realen Welt demonstrieren, dass unsere Methode eine starke Robustheit-Effizienz-Abwägung erreicht: Auf RoboTwin reduziert sie die WAM-Vorwärtspässe um 69,10 % und die Ausführungszeit um 34,02 %, während die Erfolgsrate im Vergleich zur Short-Chunk-Baseline um 2,54 % steigt; in realen Experimenten verbessert sie die Erfolgsrate um 35 %.

English

World Action Models (WAMs) have recently emerged as a promising paradigm for robotic manipulation by jointly predicting future visual observations and future actions. However, current WAMs typically execute a fixed number of predicted actions after each model inference, leaving the robot blind to whether the imagined future remains consistent with the actual physical rollout. In this work, we formulate adaptive WAM execution as a future-reality verification problem: the robot should execute longer when the WAM-predicted future remains reliable, and replan earlier when reality deviates from imagination. To this end, we propose Future Forward Dynamics Causal Attention (FFDC), a lightweight verifier that jointly reasons over predicted future actions, predicted visual dynamics, real observations, and language instructions to estimate whether the remaining action rollout can still be trusted. FFDC enables adaptive action chunk sizes as an emergent consequence of prediction-observation consistency, preserving the efficiency of long-horizon execution while restoring responsiveness in contact-rich or difficult phases. We further introduce Mixture-of-Horizon Training to improve long-horizon trajectory coverage for adaptive execution. Experiments on the RoboTwin benchmark and in the real world demonstrate that our method achieves a strong robustness-efficiency trade-off: on RoboTwin, it reduces WAM forward passes by 69.10% and execution time by 34.02%, while improving success rate by 2.54% over the short-chunk baseline; in real-world experiments, it improves success rate by 35%.

Wann der Vorstellung zu vertrauen ist: Adaptive Aktionsausführung für Weltaktionsmodelle

When to Trust Imagination: Adaptive Action Execution for World Action Models

Zusammenfassung

Support