Surmonter la cécité aux dynamiques : correction sans entraînement de l'allure et de la trajectoire pour les modèles VLA

Résumé

Les modèles Vision-Langage-Action (VLA) atteignent une flexibilité et une généralisation remarquables, dépassant les paradigmes de contrôle classiques. Cependant, la plupart des VLA dominants sont entraînés selon un paradigme d'observation à image unique, ce qui les rend structurellement aveugles aux dynamiques temporelles. Par conséquent, ces modèles se dégradent sévèrement dans les scénarios non stationnaires, même lorsqu'ils sont entraînés ou affinés sur des jeux de données dynamiques. Les approches existantes nécessitent soit un réentraînement coûteux, soit souffrent de goulots d'étranglement de latence et d'une faible cohérence temporelle entre les segments d'actions. Nous proposons la Correction de Rythme et de Trajectoire (Pace-and-Path Correction), un opérateur en phase d'inférence, de forme fermée et sans entraînement, qui encapsule tout VLA à actions segmentées. À partir d'un unique coût quadratique, une minimisation conjointe produit une solution unifiée se décomposant orthogonalement en deux canaux distincts. Le canal de rythme comprime l'exécution le long de la direction planifiée, tandis que le canal de trajectoire applique un décalage spatial orthogonal, absorbant conjointement les dynamiques perçues au sein de la fenêtre de segment. Nous évaluons notre approche sur un référentiel diagnostique complet, MoveBench, conçu pour isoler le mouvement comme seule variable contrôlée. Les résultats empiriques démontrent que notre cadre surpasse systématiquement les enveloppes sans entraînement de pointe et les méthodes adaptatives dynamiques, et améliore les taux de succès jusqu'à 28,8 % et 25,9 % en valeur absolue par rapport aux modèles VLA fondateurs, respectivement dans des environnements uniquement dynamiques et mixtes statiques-dynamiques.

English

Vision-Language-Action (VLA) models achieve remarkable flexibility and generalization beyond classical control paradigms. However, most prevailing VLAs are trained under a single-frame observation paradigm, which leaves them structurally blind to temporal dynamics. Consequently, these models degrade severely in non-stationary scenarios, even when trained or finetuned on dynamic datasets. Existing approaches either require expensive retraining or suffer from latency bottlenecks and poor temporal consistency across action chunks. We propose Pace-and-Path Correction, a training-free, closed-form inference-time operator that wraps any chunked-action VLA. From a single quadratic cost, joint minimization yields a unified solution that decomposes orthogonally into two distinct channels. The pace channel compresses execution along the planned direction, while the path channel applies an orthogonal spatial offset, jointly absorbing the perceived dynamics within the chunk window. We evaluate our approach on a comprehensive diagnostic benchmark MoveBench designed to isolate motion as the sole controlled variable. Empirical results demonstrate that our framework consistently outperforms state-of-the-art training-free wrappers and dynamic-adaptive methods and improves success rates by up to 28.8% and 25.9% in absolute terms over foundational VLA models in dynamic-only and static-dynamic mixed environments, respectively.