BayesianVLA: Байесовское разложение моделей «зрение-язык-действие» через латентные запросы действий
BayesianVLA: Bayesian Decomposition of Vision Language Action Models via Latent Action Queries
January 21, 2026
Авторы: Shijie Lian, Bin Yu, Xiaopeng Lin, Laurence T. Yang, Zhaolong Shen, Changti Wu, Yuzhuo Miao, Cong Huang, Kai Chen
cs.AI
Аннотация
Модели «Vision-Language-Action» (VLA) демонстрируют перспективность в задачах манипулирования роботами, но часто испытывают трудности с обобщением на новые инструкции или сложные сценарии с множеством задач. Мы выявляем ключевую проблему современных парадигм обучения, связанную с предвзятостью набора данных, возникающей при сборе данных, ориентированном на цель. В таких наборах данных языковые инструкции становятся высоко предсказуемыми уже на основе одних только визуальных наблюдений, что приводит к исчезновению условной взаимной информации между инструкциями и действиями — явление, которое мы называем **Информационным Коллапсом**. Как следствие, модели вырождаются в чисто визуальные политики, которые игнорируют языковые ограничения и терпят неудачу в условиях работы с данными вне распределения (Out-of-Distribution, OOD). Для решения этой проблемы мы предлагаем **BayesianVLA** — новую архитектуру, которая обеспечивает следование инструкциям за счет байесовской декомпозиции. Путем введения обучаемых **Скрытых Запросов Действий** мы строим двухветвевую архитектуру для оценки как априорного распределения, основанного только на зрении p(a|v), так и языково-обусловленного апостериорного распределения π(a|v, l). Затем мы оптимизируем политику для максимизации условной точечной взаимной информации между действиями и инструкциями. Этот подход эффективно штрафует использование «визуального ярлыка» и поощряет действия, которые явно объясняются языковой командой. Без необходимости в новых данных BayesianVLA значительно улучшает способность к обобщению. Многочисленные эксперименты на симуляторах SimplerEnv и RoboCasa демонстрируют существенный прогресс, включая улучшение на 11.3% на сложном OOD-бенчмарке SimplerEnv, что подтверждает способность нашего подхода к надежному заземлению языка в действиях.
English
Vision-Language-Action (VLA) models have shown promise in robot manipulation but often struggle to generalize to new instructions or complex multi-task scenarios. We identify a critical pathology in current training paradigms where goal-driven data collection creates a dataset bias. In such datasets, language instructions are highly predictable from visual observations alone, causing the conditional mutual information between instructions and actions to vanish, a phenomenon we term Information Collapse. Consequently, models degenerate into vision-only policies that ignore language constraints and fail in out-of-distribution (OOD) settings. To address this, we propose BayesianVLA, a novel framework that enforces instruction following via Bayesian decomposition. By introducing learnable Latent Action Queries, we construct a dual-branch architecture to estimate both a vision-only prior p(a mid v) and a language-conditioned posterior π(a mid v, ell). We then optimize the policy to maximize the conditional Pointwise Mutual Information (PMI) between actions and instructions. This objective effectively penalizes the vision shortcut and rewards actions that explicitly explain the language command. Without requiring new data, BayesianVLA significantly improves generalization. Extensive experiments across on SimplerEnv and RoboCasa demonstrate substantial gains, including an 11.3% improvement on the challenging OOD SimplerEnv benchmark, validating the ability of our approach to robustly ground language in action.