ChatPaper.aiChatPaper

VLASH: 미래 상태 인식을 통한 비동기 추론 기반 실시간 VLA

VLASH: Real-Time VLAs via Future-State-Aware Asynchronous Inference

November 30, 2025
저자: Jiaming Tang, Yufei Sun, Yilong Zhao, Shang Yang, Yujun Lin, Zhuoyang Zhang, James Hou, Yao Lu, Zhijian Liu, Song Han
cs.AI

초록

비전-언어-행동 모델(VLA)은 다양한 로봇 작업에서 점점 더 높은 성능을 보여주고 있습니다. 그러나 실제 현장 적용 속도는 여전히 느리고 비효율적입니다. 데모 영상들은 대개 부드러워 보이도록 5~10배 가속되며, 행동 정지나 환경 변화에 대한 지연된 반응이 눈에 띕니다. 비동기 추론은 로봇이 행동 실행과 추론을 동시에 수행하도록 함으로써 연속적이고 저지연 제어를 달성할 수 있는 유망한 해결책입니다. 그러나 추론 과정에서 로봇과 환경이 계속 변화하기 때문에 예측 구간과 실행 구간 사이에 시간적 불일치가 발생합니다. 이는 심각한 행동 불안정성을 초래하는데, 기존 방법들은 이를 완화하기 위해 정확도를 희생하거나 런타임 오버헤드를 추가합니다. 우리는 추가 오버헤드나 구조 변경 없이 부드럽고 정확하며 빠른 반응 제어를 제공하는 범용 VLA 비동기 추론 프레임워크인 VLASH를 제안합니다. VLASH는 이전에 생성된 액션 청크를 사용하여 로봇 상태를 미래 실행 시점까지 롤포워드함으로써 예측과 실행 간의 격차를 해소합니다. 실험 결과, VLASH는 동기식 추론 대비 최대 2.03배의 속도 향상과 최대 17.4배의 반응 지연 감소를 달성하면서 원본 정확도를 완전히 유지했습니다. 더 나아가, 기존 동기식 추론으로는 불가능했던 탁구 치기나 두더지 잡기와 같은 빠른 반응과 높은 정밀도를 요구하는 작업을 VLA가 수행할 수 있도록 합니다. 코드는 https://github.com/mit-han-lab/vlash에서 이용할 수 있습니다.
English
Vision-Language-Action models (VLAs) are becoming increasingly capable across diverse robotic tasks. However, their real-world deployment remains slow and inefficient: demonstration videos are often sped up by 5-10x to appear smooth, with noticeable action stalls and delayed reactions to environmental changes. Asynchronous inference offers a promising solution to achieve continuous and low-latency control by enabling robots to execute actions and perform inference simultaneously. However, because the robot and environment continue to evolve during inference, a temporal misalignment arises between the prediction and execution intervals. This leads to significant action instability, while existing methods either degrade accuracy or introduce runtime overhead to mitigate it. We propose VLASH, a general asynchronous inference framework for VLAs that delivers smooth, accurate, and fast reaction control without additional overhead or architectural changes. VLASH estimates the future execution-time state by rolling the robot state forward with the previously generated action chunk, thereby bridging the gap between prediction and execution. Experiments show that VLASH achieves up to 2.03x speedup and reduces reaction latency by up to 17.4x compared to synchronous inference while fully preserving the original accuracy. Moreover, it empowers VLAs to handle fast-reaction, high-precision tasks such as playing ping-pong and playing whack-a-mole, where traditional synchronous inference fails. Code is available at https://github.com/mit-han-lab/vlash
PDF170December 3, 2025