ChatPaper.aiChatPaper

VP-VLA: 비전-언어-행동 모델을 위한 인터페이스로서의 시각적 프롬프팅

VP-VLA: Visual Prompting as an Interface for Vision-Language-Action Models

March 23, 2026
저자: Zixuan Wang, Yuxin Chen, Yuqi Liu, Jinhui Ye, Pengguang Chen, Changsheng Lu, Shu Liu, Jiaya Jia
cs.AI

초록

Vision-Language-Action(VLA) 모델은 일반적으로 시각 관측값과 언어적 지시를 로봇 제어 신호로 직접 매핑합니다. 이러한 "블랙박스"식 매핑은 단일 순전파 과정이 지시 해석, 공간 기반 확립, 저수준 제어를 동시에 처리하도록 강제하여, 분포 외 시나리오에서 공간 정밀도가 낮고 견고성이 제한되는 경우가 많습니다. 이러한 한계를 해결하기 위해 우리는 구조화된 시각 프롬프트 인터페이스를 통해 고수준 추론과 저수준 실행을 분리하는 이중 시스템 프레임워크인 VP-VLA를 제안합니다. 구체적으로, '시스템 2 플래너'가 복잡한 지시를 하위 작업으로 분해하고 관련 대상 객체 및 목표 위치를 식별합니다. 이러한 공간 앵커는 십자선 및 경계 상자와 같은 구조화된 시각 프롬프트로 시각 관측값에 직접 중첩됩니다. 이러한 프롬프트의 guidance를 받고 훈련 중 새로운 보조 시각 기반 확립 목적함수에 의해 강화된 '시스템 1 컨트롤러'는 정밀한 저수준 실행 동작을 안정적으로 생성합니다. Robocasa-GR1-Tabletop 벤치마크 및 SimplerEnv 시뮬레이션에서의 실험 결과, VP-VLA는 성공률을 각각 5%, 8.3% 향상시켜 QwenOFT 및 GR00T-N1.6을 포함한 경쟁 베이스라인을 능가함을 입증했습니다.
English
Vision-Language-Action (VLA) models typically map visual observations and linguistic instructions directly to robotic control signals. This "black-box" mapping forces a single forward pass to simultaneously handle instruction interpretation, spatial grounding, and low-level control, often leading to poor spatial precision and limited robustness in out-of-distribution scenarios. To address these limitations, we propose VP-VLA, a dual-system framework that decouples high-level reasoning and low-level execution via a structured visual prompting interface. Specifically, a "System 2 Planner" decomposes complex instructions into sub-tasks and identifies relevant target objects and goal locations. These spatial anchors are then overlaid directly onto visual observations as structured visual prompts, such as crosshairs and bounding boxes. Guided by these prompts and enhanced by a novel auxiliary visual grounding objective during training, a "System 1 Controller" reliably generates precise low-level execution motions. Experiments on the Robocasa-GR1-Tabletop benchmark and SimplerEnv simulation demonstrate that VP-VLA improves success rates by 5% and 8.3%, surpassing competitive baselines including QwenOFT and GR00T-N1.6.
PDF91March 26, 2026