FASTER: Ripensare le VLAs di Flusso in Tempo Reale

Abstract

L'esecuzione in tempo reale è fondamentale per il dispiegamento di modelli Visione-Linguaggio-Azione (VLA) nel mondo fisico. I metodi di inferenza asincrona esistenti ottimizzano principalmente la fluidità della traiettoria, ma trascurano la latenza critica nella reazione ai cambiamenti ambientali. Riconsiderando il concetto di reazione nelle politiche di raggruppamento delle azioni, questo articolo presenta un'analisi sistematica dei fattori che governano il tempo di reazione. Dimostriamo che il tempo di reazione segue una distribuzione uniforme determinata congiuntamente dal Tempo alla Prima Azione (TTFA) e dall'orizzonte di esecuzione. Inoltre, riveliamo che la pratica standard di applicare uno schedulatore costante nei VLA basati su flusso può essere inefficiente e costringe il sistema a completare tutti i passi di campionamento prima che qualsiasi movimento possa iniziare, costituendo il collo di bottiglia nella latenza di reazione. Per superare questo problema, proponiamo Fast Action Sampling for ImmediaTE Reaction (FASTER). Introducendo uno Schedulatore Consapevole dell'Orizzonte, FASTER priorizza in modo adattivo le azioni a breve termine durante il campionamento del flusso, comprimendo la rimozione del rumore della reazione immediata di dieci volte (ad esempio, in π_{0.5} e X-VLA) in un singolo passo, preservando al contempo la qualità della traiettoria a lungo orizzonte. Abbinato a una pipeline client-server in streaming, FASTER riduce sostanzialmente la latenza di reazione effettiva su robot reali, specialmente quando implementato su GPU di fascia consumer. Esperimenti nel mondo reale, inclusa un'attività altamente dinamica come il tennis da tavolo, dimostrano che FASTER sblocca una reattività in tempo reale senza precedenti per politiche generaliste, consentendo la generazione rapida di traiettorie accurate e fluide.

English

Real-time execution is crucial for deploying Vision-Language-Action (VLA) models in the physical world. Existing asynchronous inference methods primarily optimize trajectory smoothness, but neglect the critical latency in reacting to environmental changes. By rethinking the notion of reaction in action chunking policies, this paper presents a systematic analysis of the factors governing reaction time. We show that reaction time follows a uniform distribution determined jointly by the Time to First Action (TTFA) and the execution horizon. Moreover, we reveal that the standard practice of applying a constant schedule in flow-based VLAs can be inefficient and forces the system to complete all sampling steps before any movement can start, forming the bottleneck in reaction latency. To overcome this issue, we propose Fast Action Sampling for ImmediaTE Reaction (FASTER). By introducing a Horizon-Aware Schedule, FASTER adaptively prioritizes near-term actions during flow sampling, compressing the denoising of the immediate reaction by tenfold (e.g., in π_{0.5} and X-VLA) into a single step, while preserving the quality of long-horizon trajectory. Coupled with a streaming client-server pipeline, FASTER substantially reduces the effective reaction latency on real robots, especially when deployed on consumer-grade GPUs. Real-world experiments, including a highly dynamic table tennis task, prove that FASTER unlocks unprecedented real-time responsiveness for generalist policies, enabling rapid generation of accurate and smooth trajectories.

FASTER: Ripensare le VLAs di Flusso in Tempo Reale

FASTER: Rethinking Real-Time Flow VLAs

Abstract

Support