ChatPaper.aiChatPaper

BayesianVLA : Décomposition bayésienne des modèles vision-langage-action par requêtes d'actions latentes

BayesianVLA: Bayesian Decomposition of Vision Language Action Models via Latent Action Queries

January 21, 2026
papers.authors: Shijie Lian, Bin Yu, Xiaopeng Lin, Laurence T. Yang, Zhaolong Shen, Changti Wu, Yuzhuo Miao, Cong Huang, Kai Chen
cs.AI

papers.abstract

Les modèles Vision-Langage-Action (VLA) ont montré des résultats prometteurs en manipulation robotique, mais peinent souvent à généraliser à de nouvelles instructions ou à des scénarios multi-tâches complexes. Nous identifions une pathologie critique dans les paradigmes d'entraînement actuels où la collecte de données axée sur les objectifs crée un biais de dataset. Dans de tels jeux de données, les instructions langagières sont hautement prévisibles à partir des seules observations visuelles, ce qui entraîne la disparition de l'information mutuelle conditionnelle entre les instructions et les actions, un phénomène que nous nommons Effondrement Informationnel. Par conséquent, les modèles dégénèrent en politiques purement visuelles qui ignorent les contraintes langagières et échouent dans des contextes hors-distribution (OOD). Pour résoudre ce problème, nous proposons BayesianVLA, un nouveau cadre qui impose le suivi des instructions via une décomposition bayésienne. En introduisant des Requêtes d'Action Latentes apprenables, nous construisons une architecture à double branche pour estimer à la fois un a priori purement visuel p(a|v) et un a posteriori conditionné par le langage π(a|v, ℓ). Nous optimisons ensuite la politique pour maximiser l'Information Mutuelle Ponctuelle Conditionnelle (PMI) entre les actions et les instructions. Cet objectif pénalise efficacement le raccourci visuel et récompense les actions qui expliquent explicitement la commande langagière. Sans nécessiter de nouvelles données, BayesianVLA améliore significativement la généralisation. Des expériences approfondies sur SimplerEnv et RoboCasa démontrent des gains substantiels, notamment une amélioration de 11,3 % sur le benchmark OOD difficile de SimplerEnv, validant la capacité de notre approche à ancrer robustement le langage dans l'action.
English
Vision-Language-Action (VLA) models have shown promise in robot manipulation but often struggle to generalize to new instructions or complex multi-task scenarios. We identify a critical pathology in current training paradigms where goal-driven data collection creates a dataset bias. In such datasets, language instructions are highly predictable from visual observations alone, causing the conditional mutual information between instructions and actions to vanish, a phenomenon we term Information Collapse. Consequently, models degenerate into vision-only policies that ignore language constraints and fail in out-of-distribution (OOD) settings. To address this, we propose BayesianVLA, a novel framework that enforces instruction following via Bayesian decomposition. By introducing learnable Latent Action Queries, we construct a dual-branch architecture to estimate both a vision-only prior p(a mid v) and a language-conditioned posterior π(a mid v, ell). We then optimize the policy to maximize the conditional Pointwise Mutual Information (PMI) between actions and instructions. This objective effectively penalizes the vision shortcut and rewards actions that explicitly explain the language command. Without requiring new data, BayesianVLA significantly improves generalization. Extensive experiments across on SimplerEnv and RoboCasa demonstrate substantial gains, including an 11.3% improvement on the challenging OOD SimplerEnv benchmark, validating the ability of our approach to robustly ground language in action.
PDF502January 24, 2026