FASTER: Repensando los VLAs de flujo en tiempo real

Resumen

La ejecución en tiempo real es crucial para desplegar modelos Visión-Lenguaje-Acción (VLA) en el mundo físico. Los métodos de inferencia asíncrona existentes optimizan principalmente la suavidad de la trayectoria, pero descuidan la latencia crítica en la reacción a los cambios ambientales. Al replantear la noción de reacción en las políticas de fragmentación de acciones, este artículo presenta un análisis sistemático de los factores que gobiernan el tiempo de reacción. Demostramos que el tiempo de reacción sigue una distribución uniforme determinada conjuntamente por el Tiempo hasta la Primera Acción (TTFA) y el horizonte de ejecución. Además, revelamos que la práctica estándar de aplicar un programa constante en los VLA basados en flujo puede ser ineficiente y obliga al sistema a completar todos los pasos de muestreo antes de que pueda iniciarse cualquier movimiento, formando el cuello de botella en la latencia de reacción. Para superar este problema, proponemos Muestreo Rápido de Acciones para Reacción Inmediata (FASTER). Al introducir un Programa Consciente del Horizonte, FASTER prioriza adaptivamente las acciones a corto plazo durante el muestreo de flujo, comprimiendo la eliminación de ruido de la reacción inmediata diez veces (por ejemplo, en π_{0.5} y X-VLA) en un solo paso, mientras preserva la calidad de la trayectoria a largo plazo. Junto con una canalización cliente-servidor de transmisión continua, FASTER reduce sustancialmente la latencia de reacción efectiva en robots reales, especialmente cuando se despliega en GPU de grado comercial. Experimentos en el mundo real, incluyendo una tarea altamente dinámica de tenis de mesa, demuestran que FASTER desbloquea una capacidad de respuesta en tiempo real sin precedentes para políticas generalistas, permitiendo la generación rápida de trayectorias precisas y suaves.

English

Real-time execution is crucial for deploying Vision-Language-Action (VLA) models in the physical world. Existing asynchronous inference methods primarily optimize trajectory smoothness, but neglect the critical latency in reacting to environmental changes. By rethinking the notion of reaction in action chunking policies, this paper presents a systematic analysis of the factors governing reaction time. We show that reaction time follows a uniform distribution determined jointly by the Time to First Action (TTFA) and the execution horizon. Moreover, we reveal that the standard practice of applying a constant schedule in flow-based VLAs can be inefficient and forces the system to complete all sampling steps before any movement can start, forming the bottleneck in reaction latency. To overcome this issue, we propose Fast Action Sampling for ImmediaTE Reaction (FASTER). By introducing a Horizon-Aware Schedule, FASTER adaptively prioritizes near-term actions during flow sampling, compressing the denoising of the immediate reaction by tenfold (e.g., in π_{0.5} and X-VLA) into a single step, while preserving the quality of long-horizon trajectory. Coupled with a streaming client-server pipeline, FASTER substantially reduces the effective reaction latency on real robots, especially when deployed on consumer-grade GPUs. Real-world experiments, including a highly dynamic table tennis task, prove that FASTER unlocks unprecedented real-time responsiveness for generalist policies, enabling rapid generation of accurate and smooth trajectories.

FASTER: Repensando los VLAs de flujo en tiempo real

FASTER: Rethinking Real-Time Flow VLAs

Resumen

Support