BayesianVLA: Bayesische Ontbinding van Vision-Language-Action Modellen via Latente Actie-queries

Samenvatting

Vision-Language-Action (VLA)-modellen tonen potentie voor robotmanipulatie, maar hebben vaak moeite met generaliseren naar nieuwe instructies of complexe multi-task scenario's. Wij identificeren een kritiek mankement in huidige trainingsparadigma's waarbij doelgerichte datacollectie een datasetbias creëert. In dergelijke datasets zijn taal instructies zeer voorspelbaar op basis van alleen visuele observaties, waardoor de voorwaardelijke wederzijdse informatie tussen instructies en acties verdwijnt, een fenomeen dat wij Informatie-Instorting noemen. Als gevolg daarvan degenereren modellen tot visie-only-beleidsregels die taalrestricties negeren en falen in out-of-distribution (OOD) settings. Om dit aan te pakken, stellen we BayesianVLA voor, een nieuw raamwerk dat het volgen van instructies afdwingt via Bayesiaanse decompositie. Door invoer van leerbare Latente Actie-Query's construeren we een dual-branch architectuur om zowel een visie-only prior p(a|v) als een taal-geconditioneerde posterior π(a|v,ℓ) te schatten. Vervolgens optimaliseren we het beleid om de voorwaardelijke Puntsgewijze Wederzijdse Informatie (PMI) tussen acties en instructies te maximaliseren. Dit doelstelling bestraft effectief de visuele shortcut en beloont acties die de taalopdracht expliciet verklaren. Zonder nieuwe data te vereisen, verbetert BayesianVLA de generalisatie aanzienlijk. Uitgebreide experimenten in SimplerEnv en RoboCasa demonstreren substantiële verbeteringen, waaronder een verbetering van 11,3% op de uitdagende OOD SimplerEnv-benchmark, wat het vermogen van onze aanpak valideert om taal robuust te gronden in actie.

English

Vision-Language-Action (VLA) models have shown promise in robot manipulation but often struggle to generalize to new instructions or complex multi-task scenarios. We identify a critical pathology in current training paradigms where goal-driven data collection creates a dataset bias. In such datasets, language instructions are highly predictable from visual observations alone, causing the conditional mutual information between instructions and actions to vanish, a phenomenon we term Information Collapse. Consequently, models degenerate into vision-only policies that ignore language constraints and fail in out-of-distribution (OOD) settings. To address this, we propose BayesianVLA, a novel framework that enforces instruction following via Bayesian decomposition. By introducing learnable Latent Action Queries, we construct a dual-branch architecture to estimate both a vision-only prior p(a mid v) and a language-conditioned posterior π(a mid v, ell). We then optimize the policy to maximize the conditional Pointwise Mutual Information (PMI) between actions and instructions. This objective effectively penalizes the vision shortcut and rewards actions that explicitly explain the language command. Without requiring new data, BayesianVLA significantly improves generalization. Extensive experiments across on SimplerEnv and RoboCasa demonstrate substantial gains, including an 11.3% improvement on the challenging OOD SimplerEnv benchmark, validating the ability of our approach to robustly ground language in action.

BayesianVLA: Bayesische Ontbinding van Vision-Language-Action Modellen via Latente Actie-queries

BayesianVLA: Bayesian Decomposition of Vision Language Action Models via Latent Action Queries

Samenvatting

Support