Dynamiekblindheid overwinnen: Trainingvrije tempo- en padcorrectie voor VLA-modellen

Samenvatting

Visie-Taal-Actie (VLA) modellen vertonen een opmerkelijke flexibiliteit en generalisatie die verder gaat dan klassieke regelparadigma's. De meeste gangbare VLA's worden echter getraind onder een enkel-frame observatieparadigma, waardoor ze structureel blind zijn voor temporele dynamiek. Als gevolg hiervan presteren deze modellen aanzienlijk slechter in niet-stationaire scenario's, zelfs wanneer ze getraind of gefinetuned zijn op dynamische datasets. Bestaande benaderingen vereisen ofwel dure hertraining of hebben te kampen met latentie-knelpunten en slechte temporele consistentie over actiebrokken heen. Wij stellen Pace-and-Path Correction voor, een trainingsvrije, gesloten-vorm inferentietijd-operator die elke VLA met gechunkte acties omhult. Vanuit een enkele kwadratische kostenfunctie levert gezamenlijke minimalisatie een uniforme oplossing die orthogonal uiteenvalt in twee afzonderlijke kanalen. Het pace-kanaal comprimeert de uitvoering langs de geplande richting, terwijl het path-kanaal een orthogonale ruimtelijke verschuiving toepast, waarmee gezamenlijk de waargenomen dynamiek binnen het chunk-venster wordt geabsorbeerd. We evalueren onze aanpak op een uitgebreide diagnostische benchmark, MoveBench, die is ontworpen om beweging als enige gecontroleerde variabele te isoleren. Empirische resultaten tonen aan dat ons raamwerk consequent beter presteert dan state-of-the-art trainingsvrije omhulsels en dynamisch-adaptieve methoden, en de slagingspercentages met respectievelijk tot 28,8% en 25,9% in absolute termen verbetert ten opzichte van fundamentele VLA-modellen in uitsluitend dynamische respectievelijk gemengd statisch-dynamische omgevingen.

English

Vision-Language-Action (VLA) models achieve remarkable flexibility and generalization beyond classical control paradigms. However, most prevailing VLAs are trained under a single-frame observation paradigm, which leaves them structurally blind to temporal dynamics. Consequently, these models degrade severely in non-stationary scenarios, even when trained or finetuned on dynamic datasets. Existing approaches either require expensive retraining or suffer from latency bottlenecks and poor temporal consistency across action chunks. We propose Pace-and-Path Correction, a training-free, closed-form inference-time operator that wraps any chunked-action VLA. From a single quadratic cost, joint minimization yields a unified solution that decomposes orthogonally into two distinct channels. The pace channel compresses execution along the planned direction, while the path channel applies an orthogonal spatial offset, jointly absorbing the perceived dynamics within the chunk window. We evaluate our approach on a comprehensive diagnostic benchmark MoveBench designed to isolate motion as the sole controlled variable. Empirical results demonstrate that our framework consistently outperforms state-of-the-art training-free wrappers and dynamic-adaptive methods and improves success rates by up to 28.8% and 25.9% in absolute terms over foundational VLA models in dynamic-only and static-dynamic mixed environments, respectively.