BayesianVLA: Scomposizione Bayesiana di Modelli Visione-Linguaggio-Azione tramite Query di Azioni Latenti

Abstract

I modelli Vision-Language-Action (VLA) hanno dimostrato potenzialità nella manipolazione robotica, ma spesso faticano a generalizzare verso nuove istruzioni o scenari complessi multi-task. Identifichiamo una patologia critica negli attuali paradigmi di addestramento, in cui la raccolta di dati guidata dall'obiettivo crea un bias nel dataset. In tali dataset, le istruzioni linguistiche sono altamente prevedibili dalle sole osservazioni visive, causando l'annullamento dell'informazione mutua condizionale tra istruzioni e azioni, un fenomeno che definiamo Collasso dell'Informazione. Di conseguenza, i modelli degenerano in policy puramente visive che ignorano i vincoli linguistici e falliscono in contesti di distribuzione non corrispondente (out-of-distribution, OOD). Per affrontare questo problema, proponiamo BayesianVLA, un framework innovativo che impone l'aderenza alle istruzioni tramite una scomposizione bayesiana. Introducendo Latent Action Queries apprendibili, costruiamo un'architettura a doppio ramo per stimare sia un prior puramente visivo p(a|v) che un posterior condizionato al linguaggio π(a|v,ℓ). Ottimizziamo quindi la policy per massimizzare l'Informazione Mutua Puntuale Condizionale (Pointwise Mutual Information, PMI) tra azioni e istruzioni. Questo obiettivo penalizza efficacemente la scorciatoia visiva e premia le azioni che spiegano esplicitamente il comando linguistico. Senza richiedere nuovi dati, BayesianVLA migliora significativamente la generalizzazione. Esperimenti estensivi su SimplerEnv e RoboCasa dimostrano miglioramenti sostanziali, incluso un +11.3% sul complesso benchmark OOD di SimplerEnv, convalidando la capacità del nostro approccio di ancorare robustamente il linguaggio nell'azione.

English

Vision-Language-Action (VLA) models have shown promise in robot manipulation but often struggle to generalize to new instructions or complex multi-task scenarios. We identify a critical pathology in current training paradigms where goal-driven data collection creates a dataset bias. In such datasets, language instructions are highly predictable from visual observations alone, causing the conditional mutual information between instructions and actions to vanish, a phenomenon we term Information Collapse. Consequently, models degenerate into vision-only policies that ignore language constraints and fail in out-of-distribution (OOD) settings. To address this, we propose BayesianVLA, a novel framework that enforces instruction following via Bayesian decomposition. By introducing learnable Latent Action Queries, we construct a dual-branch architecture to estimate both a vision-only prior p(a mid v) and a language-conditioned posterior π(a mid v, ell). We then optimize the policy to maximize the conditional Pointwise Mutual Information (PMI) between actions and instructions. This objective effectively penalizes the vision shortcut and rewards actions that explicitly explain the language command. Without requiring new data, BayesianVLA significantly improves generalization. Extensive experiments across on SimplerEnv and RoboCasa demonstrate substantial gains, including an 11.3% improvement on the challenging OOD SimplerEnv benchmark, validating the ability of our approach to robustly ground language in action.

BayesianVLA: Scomposizione Bayesiana di Modelli Visione-Linguaggio-Azione tramite Query di Azioni Latenti

BayesianVLA: Bayesian Decomposition of Vision Language Action Models via Latent Action Queries

Abstract

Support