PIVOT: Prompting Visivo Iterativo Estrae Conoscenza Azionabile per Modelli Linguistici Visivi
PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs
February 12, 2024
Autori: Soroush Nasiriany, Fei Xia, Wenhao Yu, Ted Xiao, Jacky Liang, Ishita Dasgupta, Annie Xie, Danny Driess, Ayzaan Wahid, Zhuo Xu, Quan Vuong, Tingnan Zhang, Tsang-Wei Edward Lee, Kuang-Huei Lee, Peng Xu, Sean Kirmani, Yuke Zhu, Andy Zeng, Karol Hausman, Nicolas Heess, Chelsea Finn, Sergey Levine, Brian Ichter
cs.AI
Abstract
I modelli linguistici visivi (VLMs) hanno dimostrato capacità impressionanti in una varietà di compiti, dal ragionamento logico alla comprensione visiva. Ciò apre la porta a un'interazione più ricca con il mondo, ad esempio nel controllo robotico. Tuttavia, i VLMs producono solo output testuali, mentre il controllo robotico e altri compiti spaziali richiedono l'output di coordinate continue, azioni o traiettorie. Come possiamo consentire ai VLMs di gestire tali contesti senza un fine-tuning su dati specifici per il compito?
In questo articolo, proponiamo un nuovo approccio di prompting visivo per i VLMs che chiamiamo Prompting with Iterative Visual Optimization (PIVOT), che trasforma i compiti in risposte iterative a domande visive. In ogni iterazione, l'immagine viene annotata con una rappresentazione visiva delle proposte a cui il VLM può fare riferimento (ad esempio, azioni robotiche candidate, localizzazioni o traiettorie). Il VLM seleziona quindi le migliori per il compito. Queste proposte vengono raffinate in modo iterativo, consentendo al VLM di individuare alla fine la migliore risposta disponibile. Investigiamo PIVOT sulla navigazione robotica nel mondo reale, sulla manipolazione nel mondo reale da immagini, sul seguire istruzioni in simulazione e su ulteriori compiti di inferenza spaziale come la localizzazione. Troviamo, forse sorprendentemente, che il nostro approccio consente il controllo zero-shot di sistemi robotici senza alcun dato di addestramento robotico, la navigazione in una varietà di ambienti e altre capacità. Sebbene le prestazioni attuali siano lontane dall'essere perfette, il nostro lavoro evidenzia potenzialità e limiti di questo nuovo regime e mostra un approccio promettente per i VLMs su scala Internet nei domini del ragionamento robotico e spaziale. Sito web: pivot-prompt.github.io e HuggingFace: https://huggingface.co/spaces/pivot-prompt/pivot-prompt-demo.
English
Vision language models (VLMs) have shown impressive capabilities across a
variety of tasks, from logical reasoning to visual understanding. This opens
the door to richer interaction with the world, for example robotic control.
However, VLMs produce only textual outputs, while robotic control and other
spatial tasks require outputting continuous coordinates, actions, or
trajectories. How can we enable VLMs to handle such settings without
fine-tuning on task-specific data?
In this paper, we propose a novel visual prompting approach for VLMs that we
call Prompting with Iterative Visual Optimization (PIVOT), which casts tasks as
iterative visual question answering. In each iteration, the image is annotated
with a visual representation of proposals that the VLM can refer to (e.g.,
candidate robot actions, localizations, or trajectories). The VLM then selects
the best ones for the task. These proposals are iteratively refined, allowing
the VLM to eventually zero in on the best available answer. We investigate
PIVOT on real-world robotic navigation, real-world manipulation from images,
instruction following in simulation, and additional spatial inference tasks
such as localization. We find, perhaps surprisingly, that our approach enables
zero-shot control of robotic systems without any robot training data,
navigation in a variety of environments, and other capabilities. Although
current performance is far from perfect, our work highlights potentials and
limitations of this new regime and shows a promising approach for
Internet-Scale VLMs in robotic and spatial reasoning domains. Website:
pivot-prompt.github.io and HuggingFace:
https://huggingface.co/spaces/pivot-prompt/pivot-prompt-demo.