VLASH: VLA in Tempo Reale tramite Inferenza Asincrona Consapevole dello Stato Futuro

Abstract

I modelli Vision-Language-Action (VLA) stanno diventando sempre più capaci in una vasta gamma di compiti robotici. Tuttavia, il loro dispiegamento nel mondo reale rimane lento e inefficiente: i video dimostrativi sono spesso accelerati di 5-10x per apparire fluidi, con evidenti pause nelle azioni e reazioni ritardate ai cambiamenti ambientali. L'inferenza asincrona offre una soluzione promettente per ottenere un controllo continuo e a bassa latenza, permettendo ai robot di eseguire azioni e compiere inferenze simultaneamente. Tuttavia, poiché il robot e l'ambiente continuano a evolversi durante l'inferenza, si crea un disallineamento temporale tra l'intervallo di predizione e quello di esecuzione. Ciò porta a una significativa instabilità delle azioni, mentre i metodi esistenti o degradano l'accuratezza o introducono un sovraccarico computazionale per mitigarla. Proponiamo VLASH, un framework generale per l'inferenza asincrona dei VLA che fornisce un controllo di reazione fluido, accurato e veloce senza sovraccarichi aggiuntivi o modifiche architetturali. VLASH stima lo stato futuro al momento dell'esecuzione facendo avanzare lo stato del robot con il chunk d'azione generato in precedenza, colmando così il divario tra predizione ed esecuzione. Gli esperimenti mostrano che VLASH raggiunge un speedup fino a 2.03x e riduce la latenza di reazione fino a 17.4x rispetto all'inferenza sincrona, preservando completamente l'accuratezza originale. Inoltre, permette ai VLA di gestire compiti che richiedono reazioni rapide e alta precisione, come giocare a ping-pong o a whack-a-mole, dove l'inferenza sincrona tradizionale fallisce. Il codice è disponibile all'indirizzo https://github.com/mit-han-lab/vlash

English

Vision-Language-Action models (VLAs) are becoming increasingly capable across diverse robotic tasks. However, their real-world deployment remains slow and inefficient: demonstration videos are often sped up by 5-10x to appear smooth, with noticeable action stalls and delayed reactions to environmental changes. Asynchronous inference offers a promising solution to achieve continuous and low-latency control by enabling robots to execute actions and perform inference simultaneously. However, because the robot and environment continue to evolve during inference, a temporal misalignment arises between the prediction and execution intervals. This leads to significant action instability, while existing methods either degrade accuracy or introduce runtime overhead to mitigate it. We propose VLASH, a general asynchronous inference framework for VLAs that delivers smooth, accurate, and fast reaction control without additional overhead or architectural changes. VLASH estimates the future execution-time state by rolling the robot state forward with the previously generated action chunk, thereby bridging the gap between prediction and execution. Experiments show that VLASH achieves up to 2.03x speedup and reduces reaction latency by up to 17.4x compared to synchronous inference while fully preserving the original accuracy. Moreover, it empowers VLAs to handle fast-reaction, high-precision tasks such as playing ping-pong and playing whack-a-mole, where traditional synchronous inference fails. Code is available at https://github.com/mit-han-lab/vlash

VLASH: VLA in Tempo Reale tramite Inferenza Asincrona Consapevole dello Stato Futuro

VLASH: Real-Time VLAs via Future-State-Aware Asynchronous Inference

Abstract

Support