ChatPaper.aiChatPaper

BayesianVLA: 잠재 행동 질의를 통한 비전 언어 행동 모델의 베이지안 분해

BayesianVLA: Bayesian Decomposition of Vision Language Action Models via Latent Action Queries

January 21, 2026
저자: Shijie Lian, Bin Yu, Xiaopeng Lin, Laurence T. Yang, Zhaolong Shen, Changti Wu, Yuzhuo Miao, Cong Huang, Kai Chen
cs.AI

초록

비전-언어-행동(VLA) 모델은 로봇 매니퓰레이션 분야에서 유망한 성과를 보여왔지만, 새로운 지시나 복잡한 다중 작업 시나리오로의 일반화에는 어려움을 겪는 경우가 많습니다. 본 연구는 목표 주도형 데이터 수집 방식이 데이터셋 편향을 초래하는 현재 훈련 패러다임의 근본적인 문제점을 규명합니다. 이러한 데이터셋에서는 시각 관찰만으로도 언어 지시를 높은 확률로 예측할 수 있어, 지시와 행동 간 조건부 상호 정보가 소실되는 '정보 붕괴(Information Collapse)' 현상이 발생합니다. 그 결과 모델은 언어 제약 조건을 무시하는 시각 전용 정책으로 퇴화하며 분포 외(OOD) 설정에서 실패하게 됩니다. 이를 해결하기 위해 우리는 베이지안 분해를 통해 지시 따르기를 강제하는 새로운 프레임워크인 BayesianVLA를 제안합니다. 학습 가능한 잠재 행동 쿼리(Latent Action Queries)를 도입하여 시각 전용 사전 분포 p(a|v)와 언어 조건부 사후 분포 π(a|v,ℓ)를 모두 추정하는 이중 브랜치 구조를 구성합니다. 그런 다음 정책을 최적화하여 행동과 지시 간 조건부 점별 상호 정보(PMI)를 최대화합니다. 이 목적 함수는 시각 단축 경로(vision shortcut)를 효과적으로 억제하고 언어 명령을 명시적으로 설명하는 행동을 보상합니다. 새로운 데이터 없이도 BayesianVLA는 일반화 성능을 크게 향상시킵니다. SimplerEnv와 RoboCasa에서 진행한 폭넓은 실험을 통해 특히 까다로운 OOD SimplerEnv 벤치마크에서 11.3%의 성능 향상을 포함한 상당한 개선을 입증하며, 우리 접근법이 언어를 행동에 견고하게 정착시키는 능력을 검증했습니다.
English
Vision-Language-Action (VLA) models have shown promise in robot manipulation but often struggle to generalize to new instructions or complex multi-task scenarios. We identify a critical pathology in current training paradigms where goal-driven data collection creates a dataset bias. In such datasets, language instructions are highly predictable from visual observations alone, causing the conditional mutual information between instructions and actions to vanish, a phenomenon we term Information Collapse. Consequently, models degenerate into vision-only policies that ignore language constraints and fail in out-of-distribution (OOD) settings. To address this, we propose BayesianVLA, a novel framework that enforces instruction following via Bayesian decomposition. By introducing learnable Latent Action Queries, we construct a dual-branch architecture to estimate both a vision-only prior p(a mid v) and a language-conditioned posterior π(a mid v, ell). We then optimize the policy to maximize the conditional Pointwise Mutual Information (PMI) between actions and instructions. This objective effectively penalizes the vision shortcut and rewards actions that explicitly explain the language command. Without requiring new data, BayesianVLA significantly improves generalization. Extensive experiments across on SimplerEnv and RoboCasa demonstrate substantial gains, including an 11.3% improvement on the challenging OOD SimplerEnv benchmark, validating the ability of our approach to robustly ground language in action.
PDF502January 24, 2026