VLASH : VLA en temps réel via l'inférence asynchrone consciente de l'état futur

papers.abstract

Les modèles vision-langage-action (VLA) deviennent de plus en plus performants sur diverses tâches robotiques. Cependant, leur déploiement en conditions réelles reste lent et inefficace : les vidéos de démonstration sont souvent accélérées de 5 à 10 fois pour paraître fluides, avec des blocages d'action notables et des réactions retardées aux changements environnementaux. L'inférence asynchrone offre une solution prometteuse pour réaliser un contrôle continu à faible latence en permettant aux robots d'exécuter des actions et d'effectuer des inférences simultanément. Cependant, comme le robot et l'environnement continuent d'évoluer pendant l'inférence, un décalage temporel apparaît entre les intervalles de prédiction et d'exécution. Cela entraîne une instabilité d'action significative, tandis que les méthodes existantes dégradent soit la précision, soit introduisent une surcharge computationnelle pour l'atténuer. Nous proposons VLASH, un cadre d'inférence asynchrone général pour les VLA qui fournit un contrôle réactif fluide, précis et rapide sans surcharge supplémentaire ni modifications architecturales. VLASH estime l'état futur au moment de l'exécution en faisant avancer l'état du robot avec le segment d'action précédemment généré, comblant ainsi l'écart entre prédiction et exécution. Les expériences montrent que VLASH atteint jusqu'à 2,03 fois d'accélération et réduit la latence réactionnelle jusqu'à 17,4 fois par rapport à l'inférence synchrone tout en préservant intégralement la précision originale. De plus, il permet aux VLA de gérer des tâches à réaction rapide et haute précision comme jouer au ping-pong ou à la taupe, où l'inférence synchrone traditionnelle échoue. Le code est disponible à l'adresse https://github.com/mit-han-lab/vlash

English

Vision-Language-Action models (VLAs) are becoming increasingly capable across diverse robotic tasks. However, their real-world deployment remains slow and inefficient: demonstration videos are often sped up by 5-10x to appear smooth, with noticeable action stalls and delayed reactions to environmental changes. Asynchronous inference offers a promising solution to achieve continuous and low-latency control by enabling robots to execute actions and perform inference simultaneously. However, because the robot and environment continue to evolve during inference, a temporal misalignment arises between the prediction and execution intervals. This leads to significant action instability, while existing methods either degrade accuracy or introduce runtime overhead to mitigate it. We propose VLASH, a general asynchronous inference framework for VLAs that delivers smooth, accurate, and fast reaction control without additional overhead or architectural changes. VLASH estimates the future execution-time state by rolling the robot state forward with the previously generated action chunk, thereby bridging the gap between prediction and execution. Experiments show that VLASH achieves up to 2.03x speedup and reduces reaction latency by up to 17.4x compared to synchronous inference while fully preserving the original accuracy. Moreover, it empowers VLAs to handle fast-reaction, high-precision tasks such as playing ping-pong and playing whack-a-mole, where traditional synchronous inference fails. Code is available at https://github.com/mit-han-lab/vlash

VLASH : VLA en temps réel via l'inférence asynchrone consciente de l'état futur

VLASH: Real-Time VLAs via Future-State-Aware Asynchronous Inference

papers.abstract

Support