BayesianVLA: 潜在行動クエリによる視覚言語行動モデルのベイズ分解
BayesianVLA: Bayesian Decomposition of Vision Language Action Models via Latent Action Queries
January 21, 2026
著者: Shijie Lian, Bin Yu, Xiaopeng Lin, Laurence T. Yang, Zhaolong Shen, Changti Wu, Yuzhuo Miao, Cong Huang, Kai Chen
cs.AI
要旨
Vision-Language-Action(VLA)モデルはロボットマニピュレーションにおいて有望な成果を示しているものの、新しい指示や複雑なマルチタスクシナリオへの汎化に課題を抱えることが多い。本研究では、目標駆動型のデータ収集がデータセットバイアスを生み出す現在の学習パラダイムに重大な欠陥があることを明らかにする。このようなデータセットでは、言語指示が視覚観測のみから高い確率で予測可能となるため、指示と行動の間の条件付き相互情報量が消失する「情報崩壊(Information Collapse)」と呼ばれる現象が発生する。結果として、モデルは言語制約を無視する視覚専用方策に退化し、分布外(OOD)設定で失敗する。この問題に対処するため、我々はベイズ分解による指示追従を強制する新規フレームワークBayesianVLAを提案する。学習可能な潜在行動クエリ(Latent Action Queries)を導入し、視覚のみの事前分布p(a|v)と言語条件付き事後分布π(a|v,ℓ)を推定するデュアルブランチ構造を構築する。さらに、方策を最適化して行動と指示の間の条件付き点間相互情報量(PMI)を最大化する。この目的関数は視覚的ショートカットを罰則化し、言語命令を明示的に説明する行動を報酬として効果的に機能する。新規データを必要とせず、BayesianVLAは汎化性能を大幅に改善する。SimplerEnvとRoboCasaにおける大規模実験では、難易度の高いOODベンチマークSimplerEnvで11.3%の改善を含む顕著な性能向上を実証し、本手法の言語と行動の頑健な接地能力を検証した。
English
Vision-Language-Action (VLA) models have shown promise in robot manipulation but often struggle to generalize to new instructions or complex multi-task scenarios. We identify a critical pathology in current training paradigms where goal-driven data collection creates a dataset bias. In such datasets, language instructions are highly predictable from visual observations alone, causing the conditional mutual information between instructions and actions to vanish, a phenomenon we term Information Collapse. Consequently, models degenerate into vision-only policies that ignore language constraints and fail in out-of-distribution (OOD) settings. To address this, we propose BayesianVLA, a novel framework that enforces instruction following via Bayesian decomposition. By introducing learnable Latent Action Queries, we construct a dual-branch architecture to estimate both a vision-only prior p(a mid v) and a language-conditioned posterior π(a mid v, ell). We then optimize the policy to maximize the conditional Pointwise Mutual Information (PMI) between actions and instructions. This objective effectively penalizes the vision shortcut and rewards actions that explicitly explain the language command. Without requiring new data, BayesianVLA significantly improves generalization. Extensive experiments across on SimplerEnv and RoboCasa demonstrate substantial gains, including an 11.3% improvement on the challenging OOD SimplerEnv benchmark, validating the ability of our approach to robustly ground language in action.