FASTER: Переосмысление систем реального времени для потоковой обработки визуальных языковых моделей
FASTER: Rethinking Real-Time Flow VLAs
March 19, 2026
Авторы: Yuxiang Lu, Zhe Liu, Xianzhe Fan, Zhenya Yang, Jinghua Hou, Junyi Li, Kaixin Ding, Hengshuang Zhao
cs.AI
Аннотация
Реализация в реальном времени крайне важна для развертывания моделей «Vision-Language-Action» (VLA) в физическом мире. Существующие методы асинхронного вывода в основном оптимизируют плавность траекторий, но игнорируют критическую задержку реакции на изменения окружающей среды. Переосмыслив понятие реакции в политиках формирования действий, данная статья представляет систематический анализ факторов, определяющих время реакции. Мы показываем, что время реакции подчиняется равномерному распределению, совместно определяемому временем до первого действия (Time to First Action, TTFA) и горизонтом исполнения. Более того, мы выявляем, что стандартная практика применения постоянного расписания в потоковых VLA может быть неэффективной и заставляет систему завершать все шаги выборки до начала любого движения, создавая узкое место в задержке реакции. Для решения этой проблемы мы предлагаем метод FAST Action Sampling for ImmediaTE Reaction (FASTER). Благодаря введению горизонтально-ориентированного расписания, FASTER адаптивно расставляет приоритеты для ближайших действий в процессе потоковой выборки, сокращая удаление шума для немедленной реакции в десять раз (например, в π_{0.5} и X-VLA) до одного шага, сохраняя при этом качество траектории на длительном горизонте. В сочетании с потоковым клиент-серверным конвейером FASTER существенно снижает эффективную задержку реакции на реальных роботах, особенно при развертывании на потребительских графических процессорах. Эксперименты в реальных условиях, включая высокодинамичную задачу настольного тенниса, доказывают, что FASTER обеспечивает беспрецедентную реактивность в реальном времени для универсальных политик, позволяя быстро генерировать точные и плавные траектории.
English
Real-time execution is crucial for deploying Vision-Language-Action (VLA) models in the physical world. Existing asynchronous inference methods primarily optimize trajectory smoothness, but neglect the critical latency in reacting to environmental changes. By rethinking the notion of reaction in action chunking policies, this paper presents a systematic analysis of the factors governing reaction time. We show that reaction time follows a uniform distribution determined jointly by the Time to First Action (TTFA) and the execution horizon. Moreover, we reveal that the standard practice of applying a constant schedule in flow-based VLAs can be inefficient and forces the system to complete all sampling steps before any movement can start, forming the bottleneck in reaction latency. To overcome this issue, we propose Fast Action Sampling for ImmediaTE Reaction (FASTER). By introducing a Horizon-Aware Schedule, FASTER adaptively prioritizes near-term actions during flow sampling, compressing the denoising of the immediate reaction by tenfold (e.g., in π_{0.5} and X-VLA) into a single step, while preserving the quality of long-horizon trajectory. Coupled with a streaming client-server pipeline, FASTER substantially reduces the effective reaction latency on real robots, especially when deployed on consumer-grade GPUs. Real-world experiments, including a highly dynamic table tennis task, prove that FASTER unlocks unprecedented real-time responsiveness for generalist policies, enabling rapid generation of accurate and smooth trajectories.