BayesianVLA: Decomposição Bayesiana de Modelos Visão-Linguagem-Ação por meio de Consultas de Ações Latentes

Resumo

Os modelos Visão-Linguagem-Ação (VLA) têm mostrado potencial na manipulação robótica, mas frequentemente lutam para generalizar para novas instruções ou cenários complexos de múltiplas tarefas. Identificamos uma patologia crítica nos paradigmas de treinamento atuais, onde a coleta de dados orientada por objetivos cria um viés no conjunto de dados. Nesses conjuntos, as instruções linguísticas são altamente previsíveis apenas a partir de observações visuais, fazendo com que a informação mútua condicional entre instruções e ações desapareça, um fenômeno que denominamos Colapso de Informação. Consequentemente, os modelos degeneram em políticas puramente visuais que ignoram as restrições linguísticas e falham em configurações fora da distribuição (OOD). Para resolver isso, propomos o BayesianVLA, uma nova estrutura que impõe o seguimento de instruções via decomposição bayesiana. Ao introduzir Consultas de Ação Latente aprendíveis, construímos uma arquitetura de ramo duplo para estimar tanto um prior puramente visual p(a | v) quanto um posterior condicionado à linguagem π(a | v, l). Em seguida, otimizamos a política para maximizar a Informação Mútua Pontual Condicional (PMI) entre ações e instruções. Este objetivo penaliza efetivamente o atalho visual e recompensa ações que explicam explicitamente o comando linguístico. Sem exigir novos dados, o BayesianVLA melhora significativamente a generalização. Extensivos experimentos no SimplerEnv e RoboCasa demonstram ganhos substanciais, incluindo uma melhoria de 11,3% no desafiador benchmark OOD do SimplerEnv, validando a capacidade da nossa abordagem de fundamentar a linguagem na ação de forma robusta.

English

Vision-Language-Action (VLA) models have shown promise in robot manipulation but often struggle to generalize to new instructions or complex multi-task scenarios. We identify a critical pathology in current training paradigms where goal-driven data collection creates a dataset bias. In such datasets, language instructions are highly predictable from visual observations alone, causing the conditional mutual information between instructions and actions to vanish, a phenomenon we term Information Collapse. Consequently, models degenerate into vision-only policies that ignore language constraints and fail in out-of-distribution (OOD) settings. To address this, we propose BayesianVLA, a novel framework that enforces instruction following via Bayesian decomposition. By introducing learnable Latent Action Queries, we construct a dual-branch architecture to estimate both a vision-only prior p(a mid v) and a language-conditioned posterior π(a mid v, ell). We then optimize the policy to maximize the conditional Pointwise Mutual Information (PMI) between actions and instructions. This objective effectively penalizes the vision shortcut and rewards actions that explicitly explain the language command. Without requiring new data, BayesianVLA significantly improves generalization. Extensive experiments across on SimplerEnv and RoboCasa demonstrate substantial gains, including an 11.3% improvement on the challenging OOD SimplerEnv benchmark, validating the ability of our approach to robustly ground language in action.

BayesianVLA: Decomposição Bayesiana de Modelos Visão-Linguagem-Ação por meio de Consultas de Ações Latentes

BayesianVLA: Bayesian Decomposition of Vision Language Action Models via Latent Action Queries

Resumo

Support