Überwindung der Dynamik-Blindheit: Trainingsfreie Geschwindigkeits- und Pfadkorrektur für VLA-Modelle

Zusammenfassung

Vision-Language-Action (VLA)-Modelle erzielen bemerkenswerte Flexibilität und Generalisierung über klassische Kontrollparadigmen hinaus. Allerdings werden die meisten gängigen VLAs unter einem Einzelbild-Beobachtungsparadigma trainiert, was sie strukturell blind für zeitliche Dynamiken macht. Folglich verschlechtern sich diese Modelle in nicht-stationären Szenarien erheblich, selbst wenn sie auf dynamischen Datensätzen trainiert oder feinabgestimmt werden. Bestehende Ansätze erfordern entweder teures Nachtraining oder leiden unter Latenzengpässen und schlechter zeitlicher Konsistenz über Aktionsblöcke hinweg. Wir schlagen Pace-and-Path Correction vor, einen trainingsfreien, geschlossen lösbaren Operator zur Inferenzzeit, der jeden VLA mit chunk-basierten Aktionen umhüllt. Aus einer einzigen quadratischen Kostenfunktion führt die gemeinsame Minimierung zu einer einheitlichen Lösung, die sich orthogonal in zwei getrennte Kanäle zerlegen lässt. Der Pace-Kanal komprimiert die Ausführung entlang der geplanten Richtung, während der Path-Kanal einen orthogonalen räumlichen Versatz anwendet, wodurch gemeinsam die wahrgenommenen Dynamiken innerhalb des Chunk-Fensters absorbiert werden. Wir evaluieren unseren Ansatz auf einem umfassenden diagnostischen Benchmark MoveBench, der darauf ausgelegt ist, Bewegung als einzige kontrollierte Variable zu isolieren. Empirische Ergebnisse zeigen, dass unser Framework durchgängig modernste trainingsfreie Wrapper und dynamisch-adaptive Methoden übertrifft und die Erfolgsraten um bis zu 28,8% bzw. 25,9% in absoluten Werten gegenüber grundlegenden VLA-Modellen in rein dynamischen bzw. statisch-dynamischen gemischten Umgebungen verbessert.

English

Vision-Language-Action (VLA) models achieve remarkable flexibility and generalization beyond classical control paradigms. However, most prevailing VLAs are trained under a single-frame observation paradigm, which leaves them structurally blind to temporal dynamics. Consequently, these models degrade severely in non-stationary scenarios, even when trained or finetuned on dynamic datasets. Existing approaches either require expensive retraining or suffer from latency bottlenecks and poor temporal consistency across action chunks. We propose Pace-and-Path Correction, a training-free, closed-form inference-time operator that wraps any chunked-action VLA. From a single quadratic cost, joint minimization yields a unified solution that decomposes orthogonally into two distinct channels. The pace channel compresses execution along the planned direction, while the path channel applies an orthogonal spatial offset, jointly absorbing the perceived dynamics within the chunk window. We evaluate our approach on a comprehensive diagnostic benchmark MoveBench designed to isolate motion as the sole controlled variable. Empirical results demonstrate that our framework consistently outperforms state-of-the-art training-free wrappers and dynamic-adaptive methods and improves success rates by up to 28.8% and 25.9% in absolute terms over foundational VLA models in dynamic-only and static-dynamic mixed environments, respectively.