Superando a Cegueira Dinâmica: Correção de Ritmo e Trajetória sem Treinamento para Modelos VLA

Resumo

Modelos Visão-Linguagem-Ação (VLA) alcançam notável flexibilidade e generalização além dos paradigmas clássicos de controle. No entanto, a maioria dos VLAs predominantes é treinada sob um paradigma de observação de quadro único, o que os torna estruturalmente cegos para dinâmicas temporais. Consequentemente, esses modelos degradam-se severamente em cenários não estacionários, mesmo quando treinados ou ajustados em conjuntos de dados dinâmicos. Abordagens existentes exigem retreinamento dispendioso ou sofrem de gargalos de latência e baixa consistência temporal entre blocos de ação. Propomos a Correção de Ritmo e Trajetória (Pace-and-Path Correction), um operador em tempo de inferência livre de treinamento e de forma fechada, que envolve qualquer VLA com ações em blocos. A partir de um único custo quadrático, a minimização conjunta produz uma solução unificada que se decompõe ortogonalmente em dois canais distintos. O canal de ritmo comprime a execução ao longo da direção planejada, enquanto o canal de trajetória aplica um deslocamento espacial ortogonal, absorvendo conjuntamente a dinâmica percebida dentro da janela do bloco. Avaliamos nossa abordagem em um benchmark diagnóstico abrangente, MoveBench, projetado para isolar o movimento como a única variável controlada. Resultados empíricos demonstram que nossa estrutura supera consistentemente os wrappers livres de treinamento e os métodos adaptativos dinâmicos de última geração, melhorando as taxas de sucesso em até 28,8% e 25,9% em termos absolutos sobre modelos VLA fundamentais em ambientes exclusivamente dinâmicos e mistos (estáticos e dinâmicos), respectivamente.

English

Vision-Language-Action (VLA) models achieve remarkable flexibility and generalization beyond classical control paradigms. However, most prevailing VLAs are trained under a single-frame observation paradigm, which leaves them structurally blind to temporal dynamics. Consequently, these models degrade severely in non-stationary scenarios, even when trained or finetuned on dynamic datasets. Existing approaches either require expensive retraining or suffer from latency bottlenecks and poor temporal consistency across action chunks. We propose Pace-and-Path Correction, a training-free, closed-form inference-time operator that wraps any chunked-action VLA. From a single quadratic cost, joint minimization yields a unified solution that decomposes orthogonally into two distinct channels. The pace channel compresses execution along the planned direction, while the path channel applies an orthogonal spatial offset, jointly absorbing the perceived dynamics within the chunk window. We evaluate our approach on a comprehensive diagnostic benchmark MoveBench designed to isolate motion as the sole controlled variable. Empirical results demonstrate that our framework consistently outperforms state-of-the-art training-free wrappers and dynamic-adaptive methods and improves success rates by up to 28.8% and 25.9% in absolute terms over foundational VLA models in dynamic-only and static-dynamic mixed environments, respectively.