VP-VLA: Prompt Visivo come Interfaccia per Modelli Visione-Linguaggio-Azione

Abstract

I modelli Vision-Language-Action (VLA) mappano tipicamente le osservazioni visive e le istruzioni linguistiche direttamente sui segnali di controllo robotico. Questa mappatura "a scatola nera" costringe un singolo passaggio in avanti a gestire simultaneamente l'interpretazione delle istruzioni, il grounding spaziale e il controllo di basso livello, portando spesso a una scarsa precisione spaziale e a una robustezza limitata in scenari fuori distribuzione. Per affrontare queste limitazioni, proponiamo VP-VLA, un framework a doppio sistema che disaccoppia il ragionamento di alto livello dall'esecuzione di basso livello tramite un'interfaccia strutturata di prompt visivo. Nello specifico, un "Sistema 2 Pianificatore" scompone le istruzioni complesse in sotto-compiti e identifica gli oggetti target rilevanti e le posizioni obiettivo. Questi ancoraggi spaziali vengono poi sovrapposti direttamente alle osservazioni visive come prompt visivi strutturati, come mirini e riquadri di delimitazione. Guidato da questi prompt e potenziato da un nuovo obiettivo ausiliario di grounding visivo durante l'addestramento, un "Sistema 1 Controllore" genera in modo affidabile movimenti di esecuzione di basso livello precisi. Esperimenti sul benchmark Robocasa-GR1-Tabletop e sulla simulazione SimplerEnv dimostrano che VP-VLA migliora i tassi di successo del 5% e dell'8,3%, superando baseline competitive come QwenOFT e GR00T-N1.6.

English

Vision-Language-Action (VLA) models typically map visual observations and linguistic instructions directly to robotic control signals. This "black-box" mapping forces a single forward pass to simultaneously handle instruction interpretation, spatial grounding, and low-level control, often leading to poor spatial precision and limited robustness in out-of-distribution scenarios. To address these limitations, we propose VP-VLA, a dual-system framework that decouples high-level reasoning and low-level execution via a structured visual prompting interface. Specifically, a "System 2 Planner" decomposes complex instructions into sub-tasks and identifies relevant target objects and goal locations. These spatial anchors are then overlaid directly onto visual observations as structured visual prompts, such as crosshairs and bounding boxes. Guided by these prompts and enhanced by a novel auxiliary visual grounding objective during training, a "System 1 Controller" reliably generates precise low-level execution motions. Experiments on the Robocasa-GR1-Tabletop benchmark and SimplerEnv simulation demonstrate that VP-VLA improves success rates by 5% and 8.3%, surpassing competitive baselines including QwenOFT and GR00T-N1.6.

VP-VLA: Prompt Visivo come Interfaccia per Modelli Visione-Linguaggio-Azione

VP-VLA: Visual Prompting as an Interface for Vision-Language-Action Models

Abstract

Support