VLASH: VLAs en Tiempo Real mediante Inferencia Asíncrona Consciente del Estado Futuro

Resumen

Los modelos Visión-Lenguaje-Acción (VLA) son cada vez más competentes en diversas tareas robóticas. Sin embargo, su despliegue en el mundo real sigue siendo lento e ineficiente: los vídeos de demostración a menudo se aceleran de 5 a 10 veces para parecer fluidos, con paradas de acción perceptibles y reacciones retardadas a los cambios ambientales. La inferencia asíncrona ofrece una solución prometedora para lograr un control continuo y de baja latencia al permitir que los robots ejecuten acciones y realicen inferencias simultáneamente. No obstante, dado que el robot y el entorno continúan evolucionando durante la inferencia, surge un desajuste temporal entre los intervalos de predicción y ejecución. Esto conduce a una inestabilidad de acción significativa, mientras que los métodos existentes o bien degradan la precisión o introducen sobrecarga computacional para mitigarla. Proponemos VLASH, un marco de inferencia asíncrona general para VLAs que proporciona un control de reacción fluido, preciso y rápido sin sobrecarga adicional ni cambios arquitectónicos. VLASH estima el estado futuro en el momento de la ejecución haciendo avanzar el estado del robot con el fragmento de acción generado previamente, cerrando así la brecha entre la predicción y la ejecución. Los experimentos muestran que VLASH logra una aceleración de hasta 2.03x y reduce la latencia de reacción hasta 17.4x en comparación con la inferencia síncrona, preservando completamente la precisión original. Además, permite a los VLAs manejar tareas de alta precisión y reacción rápida, como jugar al ping-pong o al topo, donde la inferencia síncrona tradicional falla. El código está disponible en https://github.com/mit-han-lab/vlash.

English

Vision-Language-Action models (VLAs) are becoming increasingly capable across diverse robotic tasks. However, their real-world deployment remains slow and inefficient: demonstration videos are often sped up by 5-10x to appear smooth, with noticeable action stalls and delayed reactions to environmental changes. Asynchronous inference offers a promising solution to achieve continuous and low-latency control by enabling robots to execute actions and perform inference simultaneously. However, because the robot and environment continue to evolve during inference, a temporal misalignment arises between the prediction and execution intervals. This leads to significant action instability, while existing methods either degrade accuracy or introduce runtime overhead to mitigate it. We propose VLASH, a general asynchronous inference framework for VLAs that delivers smooth, accurate, and fast reaction control without additional overhead or architectural changes. VLASH estimates the future execution-time state by rolling the robot state forward with the previously generated action chunk, thereby bridging the gap between prediction and execution. Experiments show that VLASH achieves up to 2.03x speedup and reduces reaction latency by up to 17.4x compared to synchronous inference while fully preserving the original accuracy. Moreover, it empowers VLAs to handle fast-reaction, high-precision tasks such as playing ping-pong and playing whack-a-mole, where traditional synchronous inference fails. Code is available at https://github.com/mit-han-lab/vlash

VLASH: VLAs en Tiempo Real mediante Inferencia Asíncrona Consciente del Estado Futuro

VLASH: Real-Time VLAs via Future-State-Aware Asynchronous Inference

Resumen

Support