VLASH: VLAs в реальном времени с помощью асинферного вывода с учетом будущего состояния

Аннотация

Модели "Vision-Language-Action" (VLA) демонстрируют растущую эффективность в решении разнообразных робототехнических задач. Однако их развертывание в реальных условиях остается медленным и неэффективным: демонстрационные видео часто ускорены в 5-10 раз для создания видимости плавности, при этом заметны задержки действий и запаздывающие реакции на изменения в окружающей среде. Асинхронный вывод данных предлагает перспективное решение для достижения непрерывного управления с низкой задержкой, позволяя роботам одновременно выполнять действия и проводить логические выводы. Однако, поскольку робот и среда продолжают изменяться в процессе вывода, возникает временное несоответствие между интервалами прогнозирования и выполнения. Это приводит к значительной нестабильности действий, в то время как существующие методы либо снижают точность, либо вводят дополнительные вычислительные затраты для ее компенсации. Мы предлагаем VLASH — универсальную асинхронную платформу вывода для моделей VLA, которая обеспечивает плавное, точное и быстрое реактивное управление без дополнительных затрат или изменений архитектуры. VLASH оценивает будущее состояние во время выполнения, продвигая состояние робота вперед с помощью ранее сгенерированного фрагмента действия, тем самым устраняя разрыв между прогнозированием и исполнением. Эксперименты показывают, что VLASH обеспечивает ускорение до 2,03 раз и снижает задержку реакции до 17,4 раз по сравнению с синхронным выводом, полностью сохраняя исходную точность. Более того, он позволяет моделям VLA решать задачи, требующие быстрой реакции и высокой точности, такие как игра в настольный теннис и игра "Ударь крота", где традиционный синхронный вывод не справляется. Код доступен по адресу https://github.com/mit-han-lab/vlash.

English

Vision-Language-Action models (VLAs) are becoming increasingly capable across diverse robotic tasks. However, their real-world deployment remains slow and inefficient: demonstration videos are often sped up by 5-10x to appear smooth, with noticeable action stalls and delayed reactions to environmental changes. Asynchronous inference offers a promising solution to achieve continuous and low-latency control by enabling robots to execute actions and perform inference simultaneously. However, because the robot and environment continue to evolve during inference, a temporal misalignment arises between the prediction and execution intervals. This leads to significant action instability, while existing methods either degrade accuracy or introduce runtime overhead to mitigate it. We propose VLASH, a general asynchronous inference framework for VLAs that delivers smooth, accurate, and fast reaction control without additional overhead or architectural changes. VLASH estimates the future execution-time state by rolling the robot state forward with the previously generated action chunk, thereby bridging the gap between prediction and execution. Experiments show that VLASH achieves up to 2.03x speedup and reduces reaction latency by up to 17.4x compared to synchronous inference while fully preserving the original accuracy. Moreover, it empowers VLAs to handle fast-reaction, high-precision tasks such as playing ping-pong and playing whack-a-mole, where traditional synchronous inference fails. Code is available at https://github.com/mit-han-lab/vlash

VLASH: VLAs в реальном времени с помощью асинферного вывода с учетом будущего состояния

VLASH: Real-Time VLAs via Future-State-Aware Asynchronous Inference

Аннотация

Support