PIVOT: Prompting Visual Iterativo Extrai Conhecimento Acionável para Modelos de Linguagem Visual
PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs
February 12, 2024
Autores: Soroush Nasiriany, Fei Xia, Wenhao Yu, Ted Xiao, Jacky Liang, Ishita Dasgupta, Annie Xie, Danny Driess, Ayzaan Wahid, Zhuo Xu, Quan Vuong, Tingnan Zhang, Tsang-Wei Edward Lee, Kuang-Huei Lee, Peng Xu, Sean Kirmani, Yuke Zhu, Andy Zeng, Karol Hausman, Nicolas Heess, Chelsea Finn, Sergey Levine, Brian Ichter
cs.AI
Resumo
Modelos de linguagem visual (VLMs) têm demonstrado capacidades impressionantes em uma variedade de tarefas, desde raciocínio lógico até compreensão visual. Isso abre portas para interações mais ricas com o mundo, como, por exemplo, o controle robótico. No entanto, os VLMs produzem apenas saídas textuais, enquanto o controle robótico e outras tarefas espaciais exigem a geração de coordenadas contínuas, ações ou trajetórias. Como podemos capacitar os VLMs a lidar com tais cenários sem ajuste fino em dados específicos da tarefa?
Neste artigo, propomos uma nova abordagem de prompt visual para VLMs, que chamamos de *Prompting with Iterative Visual Optimization* (PIVOT), que transforma tarefas em questionamentos visuais iterativos. Em cada iteração, a imagem é anotada com uma representação visual de propostas às quais o VLM pode se referir (por exemplo, ações robóticas candidatas, localizações ou trajetórias). O VLM então seleciona as melhores para a tarefa. Essas propostas são refinadas iterativamente, permitindo que o VLM eventualmente encontre a melhor resposta disponível. Investigamos o PIVOT em navegação robótica no mundo real, manipulação a partir de imagens, seguimento de instruções em simulação e tarefas adicionais de inferência espacial, como localização. Descobrimos, talvez surpreendentemente, que nossa abordagem permite o controle *zero-shot* de sistemas robóticos sem qualquer dado de treinamento robótico, navegação em uma variedade de ambientes e outras capacidades. Embora o desempenho atual esteja longe de ser perfeito, nosso trabalho destaca os potenciais e limitações desse novo regime e mostra uma abordagem promissora para VLMs em escala da Internet em domínios de raciocínio robótico e espacial. Website: pivot-prompt.github.io e HuggingFace: https://huggingface.co/spaces/pivot-prompt/pivot-prompt-demo.
English
Vision language models (VLMs) have shown impressive capabilities across a
variety of tasks, from logical reasoning to visual understanding. This opens
the door to richer interaction with the world, for example robotic control.
However, VLMs produce only textual outputs, while robotic control and other
spatial tasks require outputting continuous coordinates, actions, or
trajectories. How can we enable VLMs to handle such settings without
fine-tuning on task-specific data?
In this paper, we propose a novel visual prompting approach for VLMs that we
call Prompting with Iterative Visual Optimization (PIVOT), which casts tasks as
iterative visual question answering. In each iteration, the image is annotated
with a visual representation of proposals that the VLM can refer to (e.g.,
candidate robot actions, localizations, or trajectories). The VLM then selects
the best ones for the task. These proposals are iteratively refined, allowing
the VLM to eventually zero in on the best available answer. We investigate
PIVOT on real-world robotic navigation, real-world manipulation from images,
instruction following in simulation, and additional spatial inference tasks
such as localization. We find, perhaps surprisingly, that our approach enables
zero-shot control of robotic systems without any robot training data,
navigation in a variety of environments, and other capabilities. Although
current performance is far from perfect, our work highlights potentials and
limitations of this new regime and shows a promising approach for
Internet-Scale VLMs in robotic and spatial reasoning domains. Website:
pivot-prompt.github.io and HuggingFace:
https://huggingface.co/spaces/pivot-prompt/pivot-prompt-demo.