Superando la ceguera a la dinámica: corrección de ritmo y trayectoria sin entrenamiento para modelos VLA

Resumen

Los modelos Visión-Lenguaje-Acción (VLA) logran una notable flexibilidad y generalización más allá de los paradigmas de control clásicos. Sin embargo, la mayoría de los VLA predominantes se entrenan bajo un paradigma de observación de un solo fotograma, lo que los vuelve estructuralmente ciegos a las dinámicas temporales. En consecuencia, estos modelos se degradan gravemente en escenarios no estacionarios, incluso cuando se entrenan o ajustan en conjuntos de datos dinámicos. Los enfoques existentes requieren un reentrenamiento costoso o sufren cuellos de botella de latencia y una baja consistencia temporal entre fragmentos de acción. Proponemos Pace-and-Path Correction, un operador de inferencia en tiempo de ejecución, sin entrenamiento y de forma cerrada, que envuelve cualquier VLA de acciones fragmentadas. A partir de un único costo cuadrático, la minimización conjunta produce una solución unificada que se descompone ortogonalmente en dos canales distintos. El canal de ritmo comprime la ejecución a lo largo de la dirección planificada, mientras que el canal de trayectoria aplica un desplazamiento espacial ortogonal, absorbiendo conjuntamente las dinámicas percibidas dentro de la ventana de fragmentos. Evaluamos nuestro enfoque en un benchmark de diagnóstico integral, MoveBench, diseñado para aislar el movimiento como la única variable controlada. Los resultados empíricos demuestran que nuestro marco supera consistentemente a los envoltorios de última generación sin entrenamiento y a los métodos adaptativos dinámicos, mejorando las tasas de éxito hasta en un 28.8% y 25.9% en términos absolutos con respecto a los modelos VLA fundamentales en entornos exclusivamente dinámicos y mixtos estático-dinámicos, respectivamente.

English

Vision-Language-Action (VLA) models achieve remarkable flexibility and generalization beyond classical control paradigms. However, most prevailing VLAs are trained under a single-frame observation paradigm, which leaves them structurally blind to temporal dynamics. Consequently, these models degrade severely in non-stationary scenarios, even when trained or finetuned on dynamic datasets. Existing approaches either require expensive retraining or suffer from latency bottlenecks and poor temporal consistency across action chunks. We propose Pace-and-Path Correction, a training-free, closed-form inference-time operator that wraps any chunked-action VLA. From a single quadratic cost, joint minimization yields a unified solution that decomposes orthogonally into two distinct channels. The pace channel compresses execution along the planned direction, while the path channel applies an orthogonal spatial offset, jointly absorbing the perceived dynamics within the chunk window. We evaluate our approach on a comprehensive diagnostic benchmark MoveBench designed to isolate motion as the sole controlled variable. Empirical results demonstrate that our framework consistently outperforms state-of-the-art training-free wrappers and dynamic-adaptive methods and improves success rates by up to 28.8% and 25.9% in absolute terms over foundational VLA models in dynamic-only and static-dynamic mixed environments, respectively.