VLASH: Echtzeit-VLAs durch zustandsbewusste asynchrone Inferenz
VLASH: Real-Time VLAs via Future-State-Aware Asynchronous Inference
November 30, 2025
papers.authors: Jiaming Tang, Yufei Sun, Yilong Zhao, Shang Yang, Yujun Lin, Zhuoyang Zhang, James Hou, Yao Lu, Zhijian Liu, Song Han
cs.AI
papers.abstract
Vision-Language-Action-Modelle (VLAs) werden zunehmend leistungsfähiger in verschiedenen robotischen Aufgaben. Ihre praktische Anwendung bleibt jedoch langsam und ineffizient: Demonstrationsvideos werden oft um das 5-10-fache beschleunigt, um flüssig zu wirken, wobei merkliche Aktionspausen und verzögerte Reaktionen auf Umweltveränderungen auftreten. Asynchrone Inferenz bietet einen vielversprechenden Ansatz, um eine kontinuierliche und latenzarme Steuerung zu erreichen, indem sie Robotern ermöglicht, Aktionen auszuführen und gleichzeitig Inferenz durchzuführen. Da sich jedoch der Roboter und die Umgebung während der Inferenz weiterentwickeln, entsteht eine zeitliche Fehlausrichtung zwischen den Vorhersage- und Ausführungsintervallen. Dies führt zu erheblicher Aktionsinstabilität, während bestehende Methoden entweder die Genauigkeit verschlechtern oder Laufzeit-Overhead einführen, um dies zu mildern. Wir schlagen VLASH vor, ein allgemeines asynchrones Inferenz-Framework für VLAs, das eine flüssige, präzise und schnelle Reaktionssteuerung ohne zusätzlichen Overhead oder Architekturänderungen ermöglicht. VLASH schätzt den zukünftigen Ausführungszustand, indem der Roboterzustand mit der zuvor generierten Aktionssequenz vorgerollt wird, wodurch die Lücke zwischen Vorhersage und Ausführung überbrückt wird. Experimente zeigen, dass VLASH im Vergleich zur synchronen Inferenz eine Beschleunigung von bis zu 2,03x erreicht und die Reaktionslatenz um bis zu 17,4x reduziert, wobei die ursprüngliche Genauigkeit vollständig erhalten bleibt. Darüber hinaus befähigt es VLAs, schnell reagierende, hochpräzise Aufgaben wie Tischtennisspielen und Hau-den-Maulwurf zu bewältigen, bei denen traditionelle synchrone Inferenz versagt. Der Code ist verfügbar unter https://github.com/mit-han-lab/vlash.
English
Vision-Language-Action models (VLAs) are becoming increasingly capable across diverse robotic tasks. However, their real-world deployment remains slow and inefficient: demonstration videos are often sped up by 5-10x to appear smooth, with noticeable action stalls and delayed reactions to environmental changes. Asynchronous inference offers a promising solution to achieve continuous and low-latency control by enabling robots to execute actions and perform inference simultaneously. However, because the robot and environment continue to evolve during inference, a temporal misalignment arises between the prediction and execution intervals. This leads to significant action instability, while existing methods either degrade accuracy or introduce runtime overhead to mitigate it. We propose VLASH, a general asynchronous inference framework for VLAs that delivers smooth, accurate, and fast reaction control without additional overhead or architectural changes. VLASH estimates the future execution-time state by rolling the robot state forward with the previously generated action chunk, thereby bridging the gap between prediction and execution. Experiments show that VLASH achieves up to 2.03x speedup and reduces reaction latency by up to 17.4x compared to synchronous inference while fully preserving the original accuracy. Moreover, it empowers VLAs to handle fast-reaction, high-precision tasks such as playing ping-pong and playing whack-a-mole, where traditional synchronous inference fails. Code is available at https://github.com/mit-han-lab/vlash