ChatPaper.aiChatPaper

BayesianVLA: Bayes'sche Zerlegung von Vision-Language-Action-Modellen durch latente Aktionsabfragen

BayesianVLA: Bayesian Decomposition of Vision Language Action Models via Latent Action Queries

January 21, 2026
papers.authors: Shijie Lian, Bin Yu, Xiaopeng Lin, Laurence T. Yang, Zhaolong Shen, Changti Wu, Yuzhuo Miao, Cong Huang, Kai Chen
cs.AI

papers.abstract

Vision-Language-Action (VLA)-Modelle haben vielversprechende Ergebnisse in der Robotermanipulation gezeigt, kämpfen jedoch oft mit der Generalisierung auf neue Anweisungen oder komplexe Multi-Task-Szenarien. Wir identifizieren eine kritische Pathologie in aktuellen Trainingsparadigmen, bei der die zielgetriebene Datenerfassung eine Verzerrung des Datensatzes verursacht. In solchen Datensätzen sind Sprachinstruktionen allein aus visuellen Beobachtungen hochgradig vorhersagbar, was dazu führt, dass die bedingte gegenseitige Information zwischen Anweisungen und Aktionen verschwindet – ein Phänomen, das wir als *Informationskollaps* bezeichnen. Folglich degenerieren die Modelle zu rein visuellen Strategien, die Sprachbeschränkungen ignorieren und in Out-of-Distribution (OOD)-Szenarien versagen. Um dies zu adressieren, schlagen wir BayesianVLA vor, einen neuartigen Rahmen, der die Befolgung von Anweisungen durch bayessche Zerlegung erzwingt. Durch die Einführung lernbarer Latenter Aktionsabfragen konstruieren wir eine Dual-Branch-Architektur, die sowohl eine rein visuelle A-priori-Verteilung p(a | v) als auch eine sprachkonditionierte A-posteriori-Verteilung π(a | v, l) schätzt. Anschließend optimieren wir die Strategie, um die bedingte punktweise gegenseitige Information zwischen Aktionen und Anweisungen zu maximieren. Dieses Ziel bestraft effektiv die visuelle Abkürzung und belohnt Aktionen, die den Sprachbefehl explizit erklären. Ohne dass neue Daten benötigt werden, verbessert BayesianVLA die Generalisierung erheblich. Umfangreiche Experimente in SimplerEnv und RoboCasa demonstrieren substantielle Gewinne, einschließlich einer Verbesserung von 11,3 % auf der anspruchsvollen OOD-SimplerEnv-Benchmark, was die Fähigkeit unseres Ansatzes validiert, Sprache robust in Aktionen zu verankern.
English
Vision-Language-Action (VLA) models have shown promise in robot manipulation but often struggle to generalize to new instructions or complex multi-task scenarios. We identify a critical pathology in current training paradigms where goal-driven data collection creates a dataset bias. In such datasets, language instructions are highly predictable from visual observations alone, causing the conditional mutual information between instructions and actions to vanish, a phenomenon we term Information Collapse. Consequently, models degenerate into vision-only policies that ignore language constraints and fail in out-of-distribution (OOD) settings. To address this, we propose BayesianVLA, a novel framework that enforces instruction following via Bayesian decomposition. By introducing learnable Latent Action Queries, we construct a dual-branch architecture to estimate both a vision-only prior p(a mid v) and a language-conditioned posterior π(a mid v, ell). We then optimize the policy to maximize the conditional Pointwise Mutual Information (PMI) between actions and instructions. This objective effectively penalizes the vision shortcut and rewards actions that explicitly explain the language command. Without requiring new data, BayesianVLA significantly improves generalization. Extensive experiments across on SimplerEnv and RoboCasa demonstrate substantial gains, including an 11.3% improvement on the challenging OOD SimplerEnv benchmark, validating the ability of our approach to robustly ground language in action.
PDF502January 24, 2026