FASTER: Überdenken von Echtzeit-Flow-VLAs
FASTER: Rethinking Real-Time Flow VLAs
March 19, 2026
Autoren: Yuxiang Lu, Zhe Liu, Xianzhe Fan, Zhenya Yang, Jinghua Hou, Junyi Li, Kaixin Ding, Hengshuang Zhao
cs.AI
Zusammenfassung
Echtzeitausführung ist entscheidend für den Einsatz von Vision-Language-Action (VLA)-Modellen in der physischen Welt. Bestehende asynchrone Inferenzmethoden optimieren primär die Trajektorienglättung, vernachlässigen jedoch die kritische Latenzzeit bei der Reaktion auf Umweltveränderungen. Durch eine Neubetrachtung des Reaktionsbegriffs in Action-Chunking-Policies bietet diese Arbeit eine systematische Analyse der Faktoren, die die Reaktionszeit bestimmen. Wir zeigen, dass die Reaktionszeit einer Gleichverteilung folgt, die gemeinsam von der Zeit bis zur ersten Aktion (Time to First Action, TTFA) und dem Ausführungshorizont bestimmt wird. Darüber hinaus zeigen wir, dass die gängige Praxis, einen konstanten Zeitplan in flow-basierten VLAs anzuwenden, ineffizient sein kann und das System zwingt, alle Sampling-Schritte abzuschließen, bevor eine Bewegung beginnen kann, was den Engpass bei der Reaktionslatenz darstellt. Um dieses Problem zu überwinden, schlagen wir Fast Action Sampling for ImmediaTE Reaction (FASTER) vor. Durch die Einführung eines horizonbewussten Zeitplans priorisiert FASTER adaptiv kurzfristige Aktionen während des Flow-Samplings und komprimiert die Entrauschung der unmittelbaren Reaktion um das Zehnfache (z.B. in π_{0.5} und X-VLA) in einem einzigen Schritt, während die Qualität der langfristigen Trajektorie erhalten bleibt. In Kombination mit einer Streaming-Client-Server-Pipeline reduziert FASTER die effektive Reaktionslatenz auf realen Robotern erheblich, insbesondere bei Einsatz auf Consumer-Grade-GPUs. Experimente in der realen Welt, einschließlich einer hochdynamischen Tischtennisaufgabe, belegen, dass FASTER eine beispiellose Echtzeitreaktionsfähigkeit für generalistische Policies freisetzt und die schnelle Generierung präziser und glatter Trajektorien ermöglicht.
English
Real-time execution is crucial for deploying Vision-Language-Action (VLA) models in the physical world. Existing asynchronous inference methods primarily optimize trajectory smoothness, but neglect the critical latency in reacting to environmental changes. By rethinking the notion of reaction in action chunking policies, this paper presents a systematic analysis of the factors governing reaction time. We show that reaction time follows a uniform distribution determined jointly by the Time to First Action (TTFA) and the execution horizon. Moreover, we reveal that the standard practice of applying a constant schedule in flow-based VLAs can be inefficient and forces the system to complete all sampling steps before any movement can start, forming the bottleneck in reaction latency. To overcome this issue, we propose Fast Action Sampling for ImmediaTE Reaction (FASTER). By introducing a Horizon-Aware Schedule, FASTER adaptively prioritizes near-term actions during flow sampling, compressing the denoising of the immediate reaction by tenfold (e.g., in π_{0.5} and X-VLA) into a single step, while preserving the quality of long-horizon trajectory. Coupled with a streaming client-server pipeline, FASTER substantially reduces the effective reaction latency on real robots, especially when deployed on consumer-grade GPUs. Real-world experiments, including a highly dynamic table tennis task, prove that FASTER unlocks unprecedented real-time responsiveness for generalist policies, enabling rapid generation of accurate and smooth trajectories.