ChatPaper.aiChatPaper

VLASH: 未来状態認識による非同期推論を用いたリアルタイムVLA

VLASH: Real-Time VLAs via Future-State-Aware Asynchronous Inference

November 30, 2025
著者: Jiaming Tang, Yufei Sun, Yilong Zhao, Shang Yang, Yujun Lin, Zhuoyang Zhang, James Hou, Yao Lu, Zhijian Liu, Song Han
cs.AI

要旨

Vision-Language-Action(VLA)モデルは、多様なロボットタスクにおいてその能力を急速に高めている。しかし、実際の環境への導入は依然として遅く非効率である。デモンストレーション動画は滑らかに見せるために5~10倍速で再生されることが多く、動作の停滞や環境変化への反応遅延が目立つ。非同期推論は、ロボットが動作の実行と推論を同時に行うことを可能にすることで、継続的かつ低遅延の制御を実現する有望な解決策である。しかし、推論中もロボットと環境が変化し続けるため、予測と実行の時間的なずれが生じる。これにより顕著な動作不安定が発生するが、既存手法はこれを緩和するために精度の低下や実行時オーバーヘッドの増大を招いている。本研究では、VLA向けの汎用非同期推論フレームワークVLASHを提案する。VLASHは、追加のオーバーヘッドやアーキテクチャ変更なしに、滑らかで正確かつ高速な反応制御を実現する。VLASHは、以前に生成されたアクションチャンクを用いてロボット状態を先回りして推定することで、予測と実行の間のギャップを埋める。実験では、VLASHが同期推論と比較して最大2.03倍の高速化と最大17.4倍の反応遅延低減を達成しつつ、元の精度を完全に維持することを示す。さらに、従来の同期推論では困難な、卓球やモグラたたきといった高速反応・高精度タスクをVLAで処理可能にする。コードはhttps://github.com/mit-han-lab/vlash で公開されている。
English
Vision-Language-Action models (VLAs) are becoming increasingly capable across diverse robotic tasks. However, their real-world deployment remains slow and inefficient: demonstration videos are often sped up by 5-10x to appear smooth, with noticeable action stalls and delayed reactions to environmental changes. Asynchronous inference offers a promising solution to achieve continuous and low-latency control by enabling robots to execute actions and perform inference simultaneously. However, because the robot and environment continue to evolve during inference, a temporal misalignment arises between the prediction and execution intervals. This leads to significant action instability, while existing methods either degrade accuracy or introduce runtime overhead to mitigate it. We propose VLASH, a general asynchronous inference framework for VLAs that delivers smooth, accurate, and fast reaction control without additional overhead or architectural changes. VLASH estimates the future execution-time state by rolling the robot state forward with the previously generated action chunk, thereby bridging the gap between prediction and execution. Experiments show that VLASH achieves up to 2.03x speedup and reduces reaction latency by up to 17.4x compared to synchronous inference while fully preserving the original accuracy. Moreover, it empowers VLAs to handle fast-reaction, high-precision tasks such as playing ping-pong and playing whack-a-mole, where traditional synchronous inference fails. Code is available at https://github.com/mit-han-lab/vlash
PDF170December 3, 2025