FASTER : Repenser les VLAs de flux en temps réel
FASTER: Rethinking Real-Time Flow VLAs
March 19, 2026
Auteurs: Yuxiang Lu, Zhe Liu, Xianzhe Fan, Zhenya Yang, Jinghua Hou, Junyi Li, Kaixin Ding, Hengshuang Zhao
cs.AI
Résumé
L'exécution en temps réel est cruciale pour le déploiement des modèles Vision-Langage-Action (VLA) dans le monde physique. Les méthodes d'inférence asynchrones existantes optimisent principalement la fluidité de la trajectoire, mais négligent la latence critique dans la réaction aux changements environnementaux. En repensant la notion de réaction dans les politiques de découpage des actions, cet article présente une analyse systématique des facteurs régissant le temps de réaction. Nous montrons que le temps de réaction suit une distribution uniforme déterminée conjointement par le Temps jusqu'à la Première Action (TTPA) et l'horizon d'exécution. De plus, nous révélons que la pratique standard d'appliquer un échéancier constant dans les VLA basés sur les flux peut être inefficace et contraint le système à terminer toutes les étapes d'échantillonnage avant qu'un mouvement ne puisse commencer, formant le goulot d'étranglement de la latence de réaction. Pour surmonter ce problème, nous proposons l'Échantillonnage Rapide d'Actions pour une Réaction Immédiate (FASTER). En introduisant un Échéancier Sensible à l'Horizon, FASTER priorise de manière adaptative les actions à court terme lors de l'échantillonnage des flux, compressant le débruitage de la réaction immédiate par dix (par exemple, dans π_{0.5} et X-VLA) en une seule étape, tout en préservant la qualité de la trajectoire à long terme. Couplé à un pipeline client-serveur en flux continu, FASTER réduit substantiellement la latence de réaction effective sur les robots réels, en particulier lorsqu'il est déployé sur des GPU de gamme grand public. Des expériences en conditions réelles, incluant une tâche de tennis de table hautement dynamique, prouvent que FASTER débloque une réactivité en temps réel sans précédent pour les politiques généralistes, permettant la génération rapide de trajectoires précises et fluides.
English
Real-time execution is crucial for deploying Vision-Language-Action (VLA) models in the physical world. Existing asynchronous inference methods primarily optimize trajectory smoothness, but neglect the critical latency in reacting to environmental changes. By rethinking the notion of reaction in action chunking policies, this paper presents a systematic analysis of the factors governing reaction time. We show that reaction time follows a uniform distribution determined jointly by the Time to First Action (TTFA) and the execution horizon. Moreover, we reveal that the standard practice of applying a constant schedule in flow-based VLAs can be inefficient and forces the system to complete all sampling steps before any movement can start, forming the bottleneck in reaction latency. To overcome this issue, we propose Fast Action Sampling for ImmediaTE Reaction (FASTER). By introducing a Horizon-Aware Schedule, FASTER adaptively prioritizes near-term actions during flow sampling, compressing the denoising of the immediate reaction by tenfold (e.g., in π_{0.5} and X-VLA) into a single step, while preserving the quality of long-horizon trajectory. Coupled with a streaming client-server pipeline, FASTER substantially reduces the effective reaction latency on real robots, especially when deployed on consumer-grade GPUs. Real-world experiments, including a highly dynamic table tennis task, prove that FASTER unlocks unprecedented real-time responsiveness for generalist policies, enabling rapid generation of accurate and smooth trajectories.