ChatPaper.aiChatPaper

PIVOT: Iteratieve Visuele Prompting Ontlokt Toepasbare Kennis voor VLMs

PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs

February 12, 2024
Auteurs: Soroush Nasiriany, Fei Xia, Wenhao Yu, Ted Xiao, Jacky Liang, Ishita Dasgupta, Annie Xie, Danny Driess, Ayzaan Wahid, Zhuo Xu, Quan Vuong, Tingnan Zhang, Tsang-Wei Edward Lee, Kuang-Huei Lee, Peng Xu, Sean Kirmani, Yuke Zhu, Andy Zeng, Karol Hausman, Nicolas Heess, Chelsea Finn, Sergey Levine, Brian Ichter
cs.AI

Samenvatting

Vision language models (VLMs) hebben indrukwekkende capaciteiten getoond bij een verscheidenheid aan taken, van logisch redeneren tot visueel begrip. Dit opent de deur naar rijkere interactie met de wereld, bijvoorbeeld robotbesturing. Echter, VLMs produceren alleen tekstuele uitvoer, terwijl robotbesturing en andere ruimtelijke taken vereisen dat continue coördinaten, acties of trajecten worden uitgevoerd. Hoe kunnen we VLMs in staat stellen om dergelijke situaties aan te pakken zonder afstemming op taakspecifieke data? In dit artikel stellen we een nieuwe visuele prompting-aanpak voor VLMs voor die we Prompting with Iterative Visual Optimization (PIVOT) noemen, waarbij taken worden omgezet in iteratief visueel vraag-antwoord. In elke iteratie wordt de afbeelding geannoteerd met een visuele weergave van voorstellen waar de VLM naar kan verwijzen (bijvoorbeeld kandidaat-robotacties, lokalisaties of trajecten). De VLM selecteert vervolgens de beste voorstellen voor de taak. Deze voorstellen worden iteratief verfijnd, waardoor de VLM uiteindelijk het beste beschikbare antwoord kan vinden. We onderzoeken PIVOT op real-world robotnavigatie, real-world manipulatie vanuit afbeeldingen, instructievolging in simulatie en aanvullende ruimtelijke inferentietaken zoals lokalisatie. We ontdekken, misschien verrassend, dat onze aanpak zero-shot besturing van robotsystemen mogelijk maakt zonder enige robottrainingsdata, navigatie in verschillende omgevingen en andere capaciteiten. Hoewel de huidige prestaties verre van perfect zijn, benadrukt ons werk de potenties en beperkingen van dit nieuwe regime en toont het een veelbelovende aanpak voor Internet-Scale VLMs in robotica en ruimtelijk redeneerdomeinen. Website: pivot-prompt.github.io en HuggingFace: https://huggingface.co/spaces/pivot-prompt/pivot-prompt-demo.
English
Vision language models (VLMs) have shown impressive capabilities across a variety of tasks, from logical reasoning to visual understanding. This opens the door to richer interaction with the world, for example robotic control. However, VLMs produce only textual outputs, while robotic control and other spatial tasks require outputting continuous coordinates, actions, or trajectories. How can we enable VLMs to handle such settings without fine-tuning on task-specific data? In this paper, we propose a novel visual prompting approach for VLMs that we call Prompting with Iterative Visual Optimization (PIVOT), which casts tasks as iterative visual question answering. In each iteration, the image is annotated with a visual representation of proposals that the VLM can refer to (e.g., candidate robot actions, localizations, or trajectories). The VLM then selects the best ones for the task. These proposals are iteratively refined, allowing the VLM to eventually zero in on the best available answer. We investigate PIVOT on real-world robotic navigation, real-world manipulation from images, instruction following in simulation, and additional spatial inference tasks such as localization. We find, perhaps surprisingly, that our approach enables zero-shot control of robotic systems without any robot training data, navigation in a variety of environments, and other capabilities. Although current performance is far from perfect, our work highlights potentials and limitations of this new regime and shows a promising approach for Internet-Scale VLMs in robotic and spatial reasoning domains. Website: pivot-prompt.github.io and HuggingFace: https://huggingface.co/spaces/pivot-prompt/pivot-prompt-demo.
PDF162December 15, 2024