FASTER: Repensando as VLAs de Fluxo em Tempo Real

Resumo

A execução em tempo real é crucial para a implantação de modelos Visão-Linguagem-Ação (VLA) no mundo físico. Os métodos de inferência assíncrona existentes otimizam principalmente a suavidade da trajetória, mas negligenciam a latência crítica na reação a mudanças ambientais. Ao repensar a noção de reação nas políticas de agrupamento de ações, este artigo apresenta uma análise sistemática dos fatores que regem o tempo de reação. Mostramos que o tempo de reação segue uma distribuição uniforme determinada conjuntamente pelo Tempo até a Primeira Ação (TTFA) e pelo horizonte de execução. Além disso, revelamos que a prática padrão de aplicar um cronograma constante em VLAs baseados em fluxo pode ser ineficiente e força o sistema a concluir todas as etapas de amostragem antes que qualquer movimento possa iniciar, formando o gargalo na latência de reação. Para superar este problema, propomos a Amostragem Rápida de Ação para Reação Imediata (FASTER). Ao introduzir um Cronograma Consciente do Horizonte, o FASTER prioriza adaptativamente as ações de curto prazo durante a amostragem de fluxo, comprimindo a remoção de ruído da reação imediata em dez vezes (por exemplo, em π_{0.5} e X-VLA) em uma única etapa, preservando a qualidade da trajetória de longo horizonte. Aliado a um pipeline cliente-servor de transmissão contínua, o FASTER reduz substancialmente a latência efetiva de reação em robôs reais, especialmente quando implantado em GPUs de nível consumer. Experimentos no mundo real, incluindo uma tarefa altamente dinâmica de tênis de mesa, comprovam que o FASTER desbloqueia uma capacidade de resposta em tempo real sem precedentes para políticas generalistas, permitindo a geração rápida de trajetórias precisas e suaves.

English

Real-time execution is crucial for deploying Vision-Language-Action (VLA) models in the physical world. Existing asynchronous inference methods primarily optimize trajectory smoothness, but neglect the critical latency in reacting to environmental changes. By rethinking the notion of reaction in action chunking policies, this paper presents a systematic analysis of the factors governing reaction time. We show that reaction time follows a uniform distribution determined jointly by the Time to First Action (TTFA) and the execution horizon. Moreover, we reveal that the standard practice of applying a constant schedule in flow-based VLAs can be inefficient and forces the system to complete all sampling steps before any movement can start, forming the bottleneck in reaction latency. To overcome this issue, we propose Fast Action Sampling for ImmediaTE Reaction (FASTER). By introducing a Horizon-Aware Schedule, FASTER adaptively prioritizes near-term actions during flow sampling, compressing the denoising of the immediate reaction by tenfold (e.g., in π_{0.5} and X-VLA) into a single step, while preserving the quality of long-horizon trajectory. Coupled with a streaming client-server pipeline, FASTER substantially reduces the effective reaction latency on real robots, especially when deployed on consumer-grade GPUs. Real-world experiments, including a highly dynamic table tennis task, prove that FASTER unlocks unprecedented real-time responsiveness for generalist policies, enabling rapid generation of accurate and smooth trajectories.

FASTER: Repensando as VLAs de Fluxo em Tempo Real

FASTER: Rethinking Real-Time Flow VLAs

Resumo

Support