PIVOT : L'incitation visuelle itérative suscite des connaissances exploitables pour les modèles de langage visuel.
PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs
February 12, 2024
Auteurs: Soroush Nasiriany, Fei Xia, Wenhao Yu, Ted Xiao, Jacky Liang, Ishita Dasgupta, Annie Xie, Danny Driess, Ayzaan Wahid, Zhuo Xu, Quan Vuong, Tingnan Zhang, Tsang-Wei Edward Lee, Kuang-Huei Lee, Peng Xu, Sean Kirmani, Yuke Zhu, Andy Zeng, Karol Hausman, Nicolas Heess, Chelsea Finn, Sergey Levine, Brian Ichter
cs.AI
Résumé
Les modèles de langage visuel (VLMs) ont démontré des capacités impressionnantes dans une variété de tâches, allant du raisonnement logique à la compréhension visuelle. Cela ouvre la porte à des interactions plus riches avec le monde, par exemple dans le contrôle robotique. Cependant, les VLMs ne produisent que des sorties textuelles, tandis que le contrôle robotique et d'autres tâches spatiales nécessitent la génération de coordonnées continues, d'actions ou de trajectoires. Comment pouvons-nous permettre aux VLMs de gérer de tels contextes sans ajustement fin sur des données spécifiques à la tâche ?
Dans cet article, nous proposons une nouvelle approche de *prompting* visuel pour les VLMs, que nous appelons *Prompting with Iterative Visual Optimization* (PIVOT), qui transforme les tâches en un processus itératif de question-réponse visuelle. À chaque itération, l'image est annotée avec une représentation visuelle des propositions auxquelles le VLM peut se référer (par exemple, des actions robotiques candidates, des localisations ou des trajectoires). Le VLM sélectionne ensuite les meilleures propositions pour la tâche. Ces propositions sont affinées de manière itérative, permettant au VLM de converger vers la meilleure réponse disponible. Nous étudions PIVOT dans des contextes de navigation robotique en monde réel, de manipulation à partir d'images, de suivi d'instructions en simulation, ainsi que dans d'autres tâches d'inférence spatiale telles que la localisation. Nous constatons, peut-être de manière surprenante, que notre approche permet un contrôle *zero-shot* de systèmes robotiques sans aucune donnée d'entraînement spécifique, une navigation dans divers environnements, et d'autres capacités. Bien que les performances actuelles soient loin d'être parfaites, notre travail met en lumière les potentiels et les limites de ce nouveau paradigme et montre une approche prometteuse pour les VLMs à l'échelle d'Internet dans les domaines du raisonnement robotique et spatial. Site web : pivot-prompt.github.io et HuggingFace : https://huggingface.co/spaces/pivot-prompt/pivot-prompt-demo.
English
Vision language models (VLMs) have shown impressive capabilities across a
variety of tasks, from logical reasoning to visual understanding. This opens
the door to richer interaction with the world, for example robotic control.
However, VLMs produce only textual outputs, while robotic control and other
spatial tasks require outputting continuous coordinates, actions, or
trajectories. How can we enable VLMs to handle such settings without
fine-tuning on task-specific data?
In this paper, we propose a novel visual prompting approach for VLMs that we
call Prompting with Iterative Visual Optimization (PIVOT), which casts tasks as
iterative visual question answering. In each iteration, the image is annotated
with a visual representation of proposals that the VLM can refer to (e.g.,
candidate robot actions, localizations, or trajectories). The VLM then selects
the best ones for the task. These proposals are iteratively refined, allowing
the VLM to eventually zero in on the best available answer. We investigate
PIVOT on real-world robotic navigation, real-world manipulation from images,
instruction following in simulation, and additional spatial inference tasks
such as localization. We find, perhaps surprisingly, that our approach enables
zero-shot control of robotic systems without any robot training data,
navigation in a variety of environments, and other capabilities. Although
current performance is far from perfect, our work highlights potentials and
limitations of this new regime and shows a promising approach for
Internet-Scale VLMs in robotic and spatial reasoning domains. Website:
pivot-prompt.github.io and HuggingFace:
https://huggingface.co/spaces/pivot-prompt/pivot-prompt-demo.