VP-VLA: Visuelle Prompts als Schnittstelle für Vision-Language-Action-Modelle
VP-VLA: Visual Prompting as an Interface for Vision-Language-Action Models
March 23, 2026
Autoren: Zixuan Wang, Yuxin Chen, Yuqi Liu, Jinhui Ye, Pengguang Chen, Changsheng Lu, Shu Liu, Jiaya Jia
cs.AI
Zusammenfassung
Vision-Language-Action (VLA)-Modelle bilden in der Regel visuelle Beobachtungen und Sprachinstruktionen direkt auf robotische Steuersignale ab. Diese "Black-Box"-Abbildung zwingt einen einzelnen Vorwärtsdurchlauf dazu, Instruktionsinterpretation, räumliche Verankerung und Low-Level-Steuerung gleichzeitig zu bewältigen, was häufig zu geringer räumlicher Präzision und begrenzter Robustheit in Out-of-Distribution-Szenarien führt. Um diese Einschränkungen zu adressieren, schlagen wir VP-VLA vor, ein Dual-System-Framework, das High-Level-Reasoning und Low-Level-Ausführung über eine strukturierte visuelle Prompt-Schnittstelle entkoppelt. Konkret zerlegt ein "System-2-Planner" komplexe Instruktionen in Teilaufgaben und identifiziert relevante Zielobjekte und Zielpositionen. Diese räumlichen Anker werden dann direkt als strukturierte visuelle Prompts – wie Fadenkreuze und Begrenzungsrahmen – auf die visuellen Beobachtungen projiziert. Geführt durch diese Prompts und verstärkt durch ein neuartiges, auxiliares visuelles Verankerungsziel während des Trainings, erzeugt ein "System-1-Controller" zuverlässig präzise Low-Level-Ausführungsbewegungen. Experimente auf dem Robocasa-GR1-Tabletop-Benchmark und in der SimplerEnv-Simulation zeigen, dass VP-VLA die Erfolgsraten um 5 % bzw. 8,3 % steigert und damit wettbewerbsfähige Baseline-Modelle wie QwenOFT und GR00T-N1.6 übertrifft.
English
Vision-Language-Action (VLA) models typically map visual observations and linguistic instructions directly to robotic control signals. This "black-box" mapping forces a single forward pass to simultaneously handle instruction interpretation, spatial grounding, and low-level control, often leading to poor spatial precision and limited robustness in out-of-distribution scenarios. To address these limitations, we propose VP-VLA, a dual-system framework that decouples high-level reasoning and low-level execution via a structured visual prompting interface. Specifically, a "System 2 Planner" decomposes complex instructions into sub-tasks and identifies relevant target objects and goal locations. These spatial anchors are then overlaid directly onto visual observations as structured visual prompts, such as crosshairs and bounding boxes. Guided by these prompts and enhanced by a novel auxiliary visual grounding objective during training, a "System 1 Controller" reliably generates precise low-level execution motions. Experiments on the Robocasa-GR1-Tabletop benchmark and SimplerEnv simulation demonstrate that VP-VLA improves success rates by 5% and 8.3%, surpassing competitive baselines including QwenOFT and GR00T-N1.6.