VLASH: VLAs em Tempo Real por meio de Inferência Assíncrona Consciente do Estado Futuro

Resumo

Os modelos Visão-Linguagem-Ação (VLAs) estão se tornando cada vez mais capazes em diversas tarefas robóticas. No entanto, sua implantação no mundo real continua lenta e ineficiente: os vídeos de demonstração são frequentemente acelerados em 5 a 10 vezes para parecerem suaves, com paradas de ação perceptíveis e reações atrasadas a mudanças ambientais. A inferência assíncrona oferece uma solução promissora para alcançar um controle contínuo e de baixa latência, permitindo que os robôs executem ações e realizem inferência simultaneamente. No entanto, como o robô e o ambiente continuam a evoluir durante a inferência, surge um desalinhamento temporal entre os intervalos de previsão e execução. Isso leva a uma instabilidade de ação significativa, enquanto os métodos existentes ou degradam a precisão ou introduzem sobrecarga de tempo de execução para mitigá-la. Propomos o VLASH, uma estrutura de inferência assíncrona geral para VLAs que oferece um controle de reação suave, preciso e rápido sem sobrecarga adicional ou alterações arquiteturais. O VLASH estima o estado futuro no momento da execução, avançando o estado do robô com o bloco de ação previamente gerado, preenchendo assim a lacuna entre previsão e execução. Experimentos mostram que o VLASH alcança uma aceleração de até 2,03x e reduz a latência de reação em até 17,4x em comparação com a inferência síncrona, preservando totalmente a precisão original. Além disso, capacita os VLAs a lidarem com tarefas de alta precisão e reação rápida, como jogar tênis de mesa e jogar whack-a-mole, onde a inferência síncrona tradicional falha. O código está disponível em https://github.com/mit-han-lab/vlash.

English

Vision-Language-Action models (VLAs) are becoming increasingly capable across diverse robotic tasks. However, their real-world deployment remains slow and inefficient: demonstration videos are often sped up by 5-10x to appear smooth, with noticeable action stalls and delayed reactions to environmental changes. Asynchronous inference offers a promising solution to achieve continuous and low-latency control by enabling robots to execute actions and perform inference simultaneously. However, because the robot and environment continue to evolve during inference, a temporal misalignment arises between the prediction and execution intervals. This leads to significant action instability, while existing methods either degrade accuracy or introduce runtime overhead to mitigate it. We propose VLASH, a general asynchronous inference framework for VLAs that delivers smooth, accurate, and fast reaction control without additional overhead or architectural changes. VLASH estimates the future execution-time state by rolling the robot state forward with the previously generated action chunk, thereby bridging the gap between prediction and execution. Experiments show that VLASH achieves up to 2.03x speedup and reduces reaction latency by up to 17.4x compared to synchronous inference while fully preserving the original accuracy. Moreover, it empowers VLAs to handle fast-reaction, high-precision tasks such as playing ping-pong and playing whack-a-mole, where traditional synchronous inference fails. Code is available at https://github.com/mit-han-lab/vlash

VLASH: VLAs em Tempo Real por meio de Inferência Assíncrona Consciente do Estado Futuro

VLASH: Real-Time VLAs via Future-State-Aware Asynchronous Inference

Resumo

Support