Преодоление слепоты к динамике: коррекция темпа и траектории без обучения для моделей VLA

Аннотация

Модели «Видение-Язык-Действие» (VLA) демонстрируют выдающуюся гибкость и способность к обобщению, превосходя классические парадигмы управления. Однако большинство современных VLA обучены в парадигме однофреймового наблюдения, что делает их структурно слепыми к временной динамике. В результате эти модели значительно деградируют в нестационарных сценариях, даже если они обучены или дообучены на динамических наборах данных. Существующие подходы либо требуют дорогостоящего переобучения, либо страдают от задержек и плохой временной согласованности между чанками действий. Мы предлагаем коррекцию темпа и траектории (Pace-and-Path Correction) — оператор без обучения, работающий на этапе вывода в замкнутой форме, который оборачивает любую VLA с чанкированными действиями. Из одной квадратичной стоимости совместная минимизация даёт единое решение, ортогонально разложимое на два различных канала. Канал темпа сжимает выполнение вдоль запланированного направления, тогда как канал траектории применяет ортогональное пространственное смещение, совместно поглощая воспринимаемую динамику в пределах окна чанка. Мы оцениваем наш подход на комплексном диагностическом бенчмарке MoveBench, разработанном для выделения движения как единственной контролируемой переменной. Эмпирические результаты показывают, что наш фреймворк стабильно превосходит современные обёртки без обучения и методы динамической адаптации, повышая показатели успешности на величину до 28,8% и 25,9% в абсолютном выражении по сравнению с базовыми VLA-моделями в средах с исключительно динамическими и смешанными статическими и динамическими условиями соответственно.

English

Vision-Language-Action (VLA) models achieve remarkable flexibility and generalization beyond classical control paradigms. However, most prevailing VLAs are trained under a single-frame observation paradigm, which leaves them structurally blind to temporal dynamics. Consequently, these models degrade severely in non-stationary scenarios, even when trained or finetuned on dynamic datasets. Existing approaches either require expensive retraining or suffer from latency bottlenecks and poor temporal consistency across action chunks. We propose Pace-and-Path Correction, a training-free, closed-form inference-time operator that wraps any chunked-action VLA. From a single quadratic cost, joint minimization yields a unified solution that decomposes orthogonally into two distinct channels. The pace channel compresses execution along the planned direction, while the path channel applies an orthogonal spatial offset, jointly absorbing the perceived dynamics within the chunk window. We evaluate our approach on a comprehensive diagnostic benchmark MoveBench designed to isolate motion as the sole controlled variable. Empirical results demonstrate that our framework consistently outperforms state-of-the-art training-free wrappers and dynamic-adaptive methods and improves success rates by up to 28.8% and 25.9% in absolute terms over foundational VLA models in dynamic-only and static-dynamic mixed environments, respectively.