행동 전 확인: 시각-언어-행동 모델을 위한 시각 기반 표현 향상
Look Before Acting: Enhancing Vision Foundation Representations for Vision-Language-Action Models
March 16, 2026
저자: Yulin Luo, Hao Chen, Zhuangzhe Wu, Bowen Sui, Jiaming Liu, Chenyang Gu, Zhuoyang Liu, Qiuxuan Feng, Jiale Yu, Shuo Gu, Peng Jia, Pheng-Ann Heng, Shanghang Zhang
cs.AI
초록
비전-언어-행동(Vision-Language-Action, VLA) 모델은 최근 로봇 매니퓰레이션을 위한 유망한 패러다임으로 부상하고 있으며, 여기서 신뢰할 수 있는 행동 예측은 언어 지시에 조건부된 시각 관측을 정확하게 해석하고 통합하는 데 크게 의존합니다. 최근 연구들이 VLA 모델의 시각 능력을 향상시키려는 시도를 하고 있지만, 대부분의 접근법은 LLM 백본을 블랙박스로 취급하여 시각 정보가 행동 생성에 어떻게 기반이 되는지에 대한 통찰을 제한적으로 제공합니다. 이에 우리는 다양한 행동 생성 패러다임에 걸쳐 여러 VLA 모델을 체계적으로 분석하고, 행동 생성 과정에서 더 깊은 층으로 갈수록 시각 토큰에 대한 민감도가 점진적으로 감소한다는 것을 관찰했습니다. 이 관찰에 동기를 부여받아, 우리는 Vision-Language Mixture-of-Transformers(VL-MoT) 프레임워크를 기반으로 한 DeepVision-VLA를 제안합니다. 이 프레임워크는 비전 파운데이션 모델과 VLA 백본 간의 공유 어텐션을 가능하게 하여, 비전 전문가로부터 다중 수준의 시각 특징을 VLA 백본의 더 깊은 층에 주입하여 정밀하고 복잡한 매니퓰레이션을 위한 시각 표현을 강화합니다. 또한, 우리는 Action-Guided Visual Pruning(AGVP)을 도입했습니다. 이는 얕은 층의 어텐션을 활용하여 관련 없는 시각 토큰을 제거하는 동시에 작업 관련 토큰을 보존하여, 최소한의 계산 오버헤드로 매니퓰레이션에 중요한 시각 단서를 강화합니다. DeepVision-VLA는 시뮬레이션 및 실제 작업에서 기존 최첨단 방법을 각각 9.0% 및 7.5% 능가하며, 시각적으로 강화된 VLA 모델 설계를 위한 새로운 통찰을 제공합니다.
English
Vision-Language-Action (VLA) models have recently emerged as a promising paradigm for robotic manipulation, in which reliable action prediction critically depends on accurately interpreting and integrating visual observations conditioned on language instructions. Although recent works have sought to enhance the visual capabilities of VLA models, most approaches treat the LLM backbone as a black box, providing limited insight into how visual information is grounded into action generation. Therefore, we perform a systematic analysis of multiple VLA models across different action-generation paradigms and observe that sensitivity to visual tokens progressively decreases in deeper layers during action generation. Motivated by this observation, we propose DeepVision-VLA, built on a Vision-Language Mixture-of-Transformers (VL-MoT) framework. This framework enables shared attention between the vision foundation model and the VLA backbone, injecting multi-level visual features from the vision expert into deeper layers of the VLA backbone to enhance visual representations for precise and complex manipulation. In addition, we introduce Action-Guided Visual Pruning (AGVP), which leverages shallow-layer attention to prune irrelevant visual tokens while preserving task-relevant ones, reinforcing critical visual cues for manipulation with minimal computational overhead. DeepVision-VLA outperforms prior state-of-the-art methods by 9.0\% and 7.5\% on simulated and real-world tasks, respectively, providing new insights for the design of visually enhanced VLA models.