PIVOT: Iteratives visuelles Prompting generiert umsetzbares Wissen für VLMs
PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs
February 12, 2024
Autoren: Soroush Nasiriany, Fei Xia, Wenhao Yu, Ted Xiao, Jacky Liang, Ishita Dasgupta, Annie Xie, Danny Driess, Ayzaan Wahid, Zhuo Xu, Quan Vuong, Tingnan Zhang, Tsang-Wei Edward Lee, Kuang-Huei Lee, Peng Xu, Sean Kirmani, Yuke Zhu, Andy Zeng, Karol Hausman, Nicolas Heess, Chelsea Finn, Sergey Levine, Brian Ichter
cs.AI
Zusammenfassung
Vision Language Models (VLMs) haben beeindruckende Fähigkeiten in einer Vielzahl von Aufgaben gezeigt, von logischem Denken bis hin zu visuellem Verständnis. Dies eröffnet die Möglichkeit für eine reichhaltigere Interaktion mit der Welt, beispielsweise in der Robotersteuerung. Allerdings erzeugen VLMs nur textuelle Ausgaben, während Robotersteuerung und andere räumliche Aufgaben die Ausgabe kontinuierlicher Koordinaten, Aktionen oder Trajektorien erfordern. Wie können wir VLMs ermöglichen, solche Anwendungen zu bewältigen, ohne sie auf aufgabenspezifische Daten feinzutunen?
In diesem Artikel schlagen wir einen neuartigen visuellen Prompting-Ansatz für VLMs vor, den wir Prompting with Iterative Visual Optimization (PIVOT) nennen. Dieser Ansatz formuliert Aufgaben als iteratives visuelles Frage-Antworten. In jeder Iteration wird das Bild mit einer visuellen Darstellung von Vorschlägen annotiert, auf die sich das VLM beziehen kann (z. B. mögliche Roboteraktionen, Lokalisierungen oder Trajektorien). Das VLM wählt dann die besten Vorschläge für die Aufgabe aus. Diese Vorschläge werden iterativ verfeinert, sodass das VLM schließlich die beste verfügbare Antwort finden kann. Wir untersuchen PIVOT in realen Anwendungen wie der Roboter-Navigation, der Manipulation in der realen Welt anhand von Bildern, der Befolgung von Anweisungen in der Simulation sowie zusätzlichen räumlichen Inferenzaufgaben wie der Lokalisierung. Überraschenderweise stellen wir fest, dass unser Ansatz die Null-Shot-Steuerung von Robotersystemen ohne jegliche Roboter-Trainingsdaten, die Navigation in verschiedenen Umgebungen und weitere Fähigkeiten ermöglicht. Obwohl die derzeitige Leistung noch weit von perfekt entfernt ist, hebt unsere Arbeit die Potenziale und Grenzen dieses neuen Ansatzes hervor und zeigt einen vielversprechenden Weg für Internet-Scale VLMs in den Bereichen Robotik und räumlichem Denken. Website: pivot-prompt.github.io und HuggingFace: https://huggingface.co/spaces/pivot-prompt/pivot-prompt-demo.
English
Vision language models (VLMs) have shown impressive capabilities across a
variety of tasks, from logical reasoning to visual understanding. This opens
the door to richer interaction with the world, for example robotic control.
However, VLMs produce only textual outputs, while robotic control and other
spatial tasks require outputting continuous coordinates, actions, or
trajectories. How can we enable VLMs to handle such settings without
fine-tuning on task-specific data?
In this paper, we propose a novel visual prompting approach for VLMs that we
call Prompting with Iterative Visual Optimization (PIVOT), which casts tasks as
iterative visual question answering. In each iteration, the image is annotated
with a visual representation of proposals that the VLM can refer to (e.g.,
candidate robot actions, localizations, or trajectories). The VLM then selects
the best ones for the task. These proposals are iteratively refined, allowing
the VLM to eventually zero in on the best available answer. We investigate
PIVOT on real-world robotic navigation, real-world manipulation from images,
instruction following in simulation, and additional spatial inference tasks
such as localization. We find, perhaps surprisingly, that our approach enables
zero-shot control of robotic systems without any robot training data,
navigation in a variety of environments, and other capabilities. Although
current performance is far from perfect, our work highlights potentials and
limitations of this new regime and shows a promising approach for
Internet-Scale VLMs in robotic and spatial reasoning domains. Website:
pivot-prompt.github.io and HuggingFace:
https://huggingface.co/spaces/pivot-prompt/pivot-prompt-demo.