VP-VLA: Los Avisos Visuales como Interfaz para Modelos Visión-Lenguaje-Acción

Resumen

Los modelos Visión-Lenguaje-Acción (VLA) suelen mapear observaciones visuales e instrucciones lingüísticas directamente a señales de control robótico. Este mapeo de "caja negra" obliga a que una única pasada hacia adelante maneje simultáneamente la interpretación de instrucciones, la localización espacial y el control de bajo nivel, lo que a menudo resulta en una escasa precisión espacial y una robustez limitada en escenarios fuera de distribución. Para abordar estas limitaciones, proponemos VP-VLA, un marco de doble sistema que desacopla el razonamiento de alto nivel y la ejecución de bajo nivel mediante una interfaz estructurada de indicación visual. Específicamente, un "Planificador del Sistema 2" descompone instrucciones complejas en subtareas e identifica objetos objetivo relevantes y ubicaciones de destino. Estos anclajes espaciales se superponen directamente sobre las observaciones visuales como indicaciones visuales estructuradas, tales como cruces de mira y cuadros delimitadores. Guiado por estas indicaciones y potenciado por un nuevo objetivo auxiliar de localización visual durante el entrenamiento, un "Controlador del Sistema 1" genera de forma fiable movimientos de ejecución de bajo nivel precisos. Los experimentos en el benchmark Robocasa-GR1-Tabletop y la simulación SimplerEnv demuestran que VP-VLA mejora las tasas de éxito en un 5% y un 8.3%, superando a líneas base competitivas como QwenOFT y GR00T-N1.6.

English

Vision-Language-Action (VLA) models typically map visual observations and linguistic instructions directly to robotic control signals. This "black-box" mapping forces a single forward pass to simultaneously handle instruction interpretation, spatial grounding, and low-level control, often leading to poor spatial precision and limited robustness in out-of-distribution scenarios. To address these limitations, we propose VP-VLA, a dual-system framework that decouples high-level reasoning and low-level execution via a structured visual prompting interface. Specifically, a "System 2 Planner" decomposes complex instructions into sub-tasks and identifies relevant target objects and goal locations. These spatial anchors are then overlaid directly onto visual observations as structured visual prompts, such as crosshairs and bounding boxes. Guided by these prompts and enhanced by a novel auxiliary visual grounding objective during training, a "System 1 Controller" reliably generates precise low-level execution motions. Experiments on the Robocasa-GR1-Tabletop benchmark and SimplerEnv simulation demonstrate that VP-VLA improves success rates by 5% and 8.3%, surpassing competitive baselines including QwenOFT and GR00T-N1.6.

VP-VLA: Los Avisos Visuales como Interfaz para Modelos Visión-Lenguaje-Acción

VP-VLA: Visual Prompting as an Interface for Vision-Language-Action Models

Resumen

Support