ChatPaper.aiChatPaper

FASTER: Een nieuwe kijk op real-time flow VLAs

FASTER: Rethinking Real-Time Flow VLAs

March 19, 2026
Auteurs: Yuxiang Lu, Zhe Liu, Xianzhe Fan, Zhenya Yang, Jinghua Hou, Junyi Li, Kaixin Ding, Hengshuang Zhao
cs.AI

Samenvatting

Real-time uitvoering is cruciaal voor de inzet van Vision-Language-Action (VLA)-modellen in de fysieke wereld. Bestaande asynchrone inferentiemethoden optimaliseren voornamelijk de vloeiendheid van trajecten, maar verwaarlozen de kritieke latentie bij het reageren op veranderingen in de omgeving. Door het begrip 'reactie' in actie-chunking-beleid opnieuw te bezien, presenteert dit artikel een systematische analyse van de factoren die de reactietijd bepalen. Wij tonen aan dat de reactietijd een uniforme verdeling volgt die gezamenlijk wordt bepaald door de 'Time to First Action' (TTFA) en de uitvoeringshorizon. Bovendien laten wij zien dat de standaardpraktijk van het toepassen van een constant schema in flow-gebaseerde VLA's inefficiënt kan zijn en het systeem dwingt om alle samplingstappen te voltooien voordat enige beweging kan beginnen, wat de bottleneck vormt in de reactielatentie. Om dit probleem te overwinnen, stellen wij Fast Action Sampling for ImmediaTE Reaction (FASTER) voor. Door een Horizon-Aware Schedule in te voeren, geeft FASTER adaptief prioriteit aan kortetermijnacties tijdens flow-sampling, waardoor het ontruisen van de onmiddellijke reactie vertienvoudigd wordt (bijv. in π_{0.5} en X-VLA) tot een enkele stap, terwijl de kwaliteit van het traject op lange termijn behouden blijft. In combinatie met een streaming client-serverpijplijn vermindert FASTER de effectieve reactielatentie op echte robots aanzienlijk, vooral bij inzet op consumenten-GPU's. Experimenten in de echte wereld, waaronder een hoogdynamische tafeltennistaak, bewijzen dat FASTER een ongekende real-time responsiviteit mogelijk maakt voor generalistische beleidsregels, waardoor snelle generatie van nauwkeurige en vloeiende trajecten mogelijk wordt.
English
Real-time execution is crucial for deploying Vision-Language-Action (VLA) models in the physical world. Existing asynchronous inference methods primarily optimize trajectory smoothness, but neglect the critical latency in reacting to environmental changes. By rethinking the notion of reaction in action chunking policies, this paper presents a systematic analysis of the factors governing reaction time. We show that reaction time follows a uniform distribution determined jointly by the Time to First Action (TTFA) and the execution horizon. Moreover, we reveal that the standard practice of applying a constant schedule in flow-based VLAs can be inefficient and forces the system to complete all sampling steps before any movement can start, forming the bottleneck in reaction latency. To overcome this issue, we propose Fast Action Sampling for ImmediaTE Reaction (FASTER). By introducing a Horizon-Aware Schedule, FASTER adaptively prioritizes near-term actions during flow sampling, compressing the denoising of the immediate reaction by tenfold (e.g., in π_{0.5} and X-VLA) into a single step, while preserving the quality of long-horizon trajectory. Coupled with a streaming client-server pipeline, FASTER substantially reduces the effective reaction latency on real robots, especially when deployed on consumer-grade GPUs. Real-world experiments, including a highly dynamic table tennis task, prove that FASTER unlocks unprecedented real-time responsiveness for generalist policies, enabling rapid generation of accurate and smooth trajectories.
PDF503March 23, 2026