BayesianVLA: Descomposición Bayesiana de Modelos Visión-Lenguaje-Acción mediante Consultas de Acción Latentes

Resumen

Los modelos Visión-Lenguaje-Acción (VLA) han mostrado potencial en la manipulación robótica, pero a menudo presentan dificultades para generalizar ante nuevas instrucciones o escenarios complejos de múltiples tareas. Identificamos una patología crítica en los paradigmas de entrenamiento actuales, donde la recolección de datos orientada a objetivos crea un sesgo en el conjunto de datos. En dichos conjuntos, las instrucciones lingüísticas son altamente predecibles a partir únicamente de las observaciones visuales, lo que provoca que la información mutua condicional entre las instrucciones y las acciones desaparezca, un fenómeno que denominamos Colapso de la Información. En consecuencia, los modelos degeneran en políticas basadas únicamente en la visión que ignoran las restricciones lingüísticas y fallan en entornos fuera de distribución (FDD). Para abordar este problema, proponemos BayesianVLA, un marco novedoso que impone el seguimiento de instrucciones mediante una descomposición bayesiana. Al introducir Consultas de Acción Latentes entrenables, construimos una arquitectura de doble rama para estimar tanto un previo p(a|v) basado solo en la visión como un posterior π(a|v, l) condicionado al lenguaje. Luego optimizamos la política para maximizar la Información Mutua Puntual Condicional (IMPC) entre las acciones y las instrucciones. Este objetivo penaliza efectivamente el atajo visual y premia las acciones que explican explícitamente el comando lingüístico. Sin requerir nuevos datos, BayesianVLA mejora significativamente la generalización. Experimentos exhaustivos en SimplerEnv y RoboCasa demuestran mejoras sustanciales, incluyendo una mejora del 11.3% en el desafiante benchmark FDD de SimplerEnv, validando la capacidad de nuestro enfoque para anclar el lenguaje en la acción de manera robusta.

English

Vision-Language-Action (VLA) models have shown promise in robot manipulation but often struggle to generalize to new instructions or complex multi-task scenarios. We identify a critical pathology in current training paradigms where goal-driven data collection creates a dataset bias. In such datasets, language instructions are highly predictable from visual observations alone, causing the conditional mutual information between instructions and actions to vanish, a phenomenon we term Information Collapse. Consequently, models degenerate into vision-only policies that ignore language constraints and fail in out-of-distribution (OOD) settings. To address this, we propose BayesianVLA, a novel framework that enforces instruction following via Bayesian decomposition. By introducing learnable Latent Action Queries, we construct a dual-branch architecture to estimate both a vision-only prior p(a mid v) and a language-conditioned posterior π(a mid v, ell). We then optimize the policy to maximize the conditional Pointwise Mutual Information (PMI) between actions and instructions. This objective effectively penalizes the vision shortcut and rewards actions that explicitly explain the language command. Without requiring new data, BayesianVLA significantly improves generalization. Extensive experiments across on SimplerEnv and RoboCasa demonstrate substantial gains, including an 11.3% improvement on the challenging OOD SimplerEnv benchmark, validating the ability of our approach to robustly ground language in action.