VP-VLA : L'invite visuelle comme interface pour les modèles vision-langage-action

Résumé

Les modèles Vision-Langage-Action (VLA) mappent généralement les observations visuelles et les instructions linguistiques directement vers des signaux de contrôle robotiques. Ce mappage « boîte noire » contraint une seule passe avant à interpréter l'instruction, à l'ancrer spatialement et à générer le contrôle bas niveau simultanément, ce qui entraîne souvent une faible précision spatiale et une robustesse limitée dans des scénarios hors distribution. Pour résoudre ces limitations, nous proposons VP-VLA, un cadre à double système qui découple le raisonnement de haut niveau et l'exécution de bas niveau via une interface structurée d'invites visuelles. Concrètement, un « Planificateur Système 2 » décompose les instructions complexes en sous-tâches et identifie les objets cibles et les emplacements butoins pertinents. Ces ancres spatiales sont ensuite superposées directement aux observations visuelles sous forme d'invites visuelles structurées, telles que des réticules et des cadres de délimitation. Guidé par ces invites et renforcé par un nouvel objectif auxiliaire d'ancrage visuel durant l'entraînement, un « Contrôleur Système 1 » génère de manière fiable des mouvements d'exécution bas niveau précis. Les expériences sur le benchmark Robocasa-GR1-Tabletop et la simulation SimplerEnv démontrent que VP-VLA améliore les taux de réussite de 5 % et 8,3 %, surpassant des bases de référence compétitives incluant QwenOFT et GR00T-N1.6.

English

Vision-Language-Action (VLA) models typically map visual observations and linguistic instructions directly to robotic control signals. This "black-box" mapping forces a single forward pass to simultaneously handle instruction interpretation, spatial grounding, and low-level control, often leading to poor spatial precision and limited robustness in out-of-distribution scenarios. To address these limitations, we propose VP-VLA, a dual-system framework that decouples high-level reasoning and low-level execution via a structured visual prompting interface. Specifically, a "System 2 Planner" decomposes complex instructions into sub-tasks and identifies relevant target objects and goal locations. These spatial anchors are then overlaid directly onto visual observations as structured visual prompts, such as crosshairs and bounding boxes. Guided by these prompts and enhanced by a novel auxiliary visual grounding objective during training, a "System 1 Controller" reliably generates precise low-level execution motions. Experiments on the Robocasa-GR1-Tabletop benchmark and SimplerEnv simulation demonstrate that VP-VLA improves success rates by 5% and 8.3%, surpassing competitive baselines including QwenOFT and GR00T-N1.6.

VP-VLA : L'invite visuelle comme interface pour les modèles vision-langage-action

VP-VLA: Visual Prompting as an Interface for Vision-Language-Action Models

Résumé

Support