ChatPaper.aiChatPaper

PIVOT: Итеративное визуальное подсказывание извлекает полезные знания для моделей визуального языка

PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs

February 12, 2024
Авторы: Soroush Nasiriany, Fei Xia, Wenhao Yu, Ted Xiao, Jacky Liang, Ishita Dasgupta, Annie Xie, Danny Driess, Ayzaan Wahid, Zhuo Xu, Quan Vuong, Tingnan Zhang, Tsang-Wei Edward Lee, Kuang-Huei Lee, Peng Xu, Sean Kirmani, Yuke Zhu, Andy Zeng, Karol Hausman, Nicolas Heess, Chelsea Finn, Sergey Levine, Brian Ichter
cs.AI

Аннотация

Модели, объединяющие зрение и язык (Vision Language Models, VLMs), продемонстрировали впечатляющие возможности в решении разнообразных задач, от логического рассуждения до визуального понимания. Это открывает путь к более богатому взаимодействию с окружающим миром, например, к управлению роботами. Однако VLMs генерируют только текстовые выходные данные, в то время как управление роботами и другие пространственные задачи требуют вывода непрерывных координат, действий или траекторий. Как мы можем позволить VLMs справляться с такими задачами без тонкой настройки на специфичных данных? В данной статье мы предлагаем новый подход визуального подсказывания для VLMs, который мы называем Prompting with Iterative Visual Optimization (PIVOT). Этот подход преобразует задачи в итеративное визуальное вопросно-ответное взаимодействие. На каждой итерации изображение аннотируется визуальным представлением предложений, на которые может ссылаться VLM (например, возможные действия робота, локализации или траектории). Затем VLM выбирает наилучшие из них для выполнения задачи. Эти предложения итеративно уточняются, что позволяет VLM в конечном итоге найти наилучший доступный ответ. Мы исследуем PIVOT на задачах навигации роботов в реальном мире, манипуляций на основе изображений, выполнения инструкций в симуляции, а также на дополнительных задачах пространственного вывода, таких как локализация. Мы обнаружили, что, возможно, удивительно, наш подход позволяет осуществлять управление роботами без предварительного обучения на данных, связанных с роботами, навигацию в различных средах и другие возможности. Хотя текущая производительность далека от идеальной, наша работа подчеркивает потенциал и ограничения этого нового подхода и демонстрирует перспективный метод для VLMs масштаба интернета в областях робототехники и пространственного рассуждения. Веб-сайт: pivot-prompt.github.io и HuggingFace: https://huggingface.co/spaces/pivot-prompt/pivot-prompt-demo.
English
Vision language models (VLMs) have shown impressive capabilities across a variety of tasks, from logical reasoning to visual understanding. This opens the door to richer interaction with the world, for example robotic control. However, VLMs produce only textual outputs, while robotic control and other spatial tasks require outputting continuous coordinates, actions, or trajectories. How can we enable VLMs to handle such settings without fine-tuning on task-specific data? In this paper, we propose a novel visual prompting approach for VLMs that we call Prompting with Iterative Visual Optimization (PIVOT), which casts tasks as iterative visual question answering. In each iteration, the image is annotated with a visual representation of proposals that the VLM can refer to (e.g., candidate robot actions, localizations, or trajectories). The VLM then selects the best ones for the task. These proposals are iteratively refined, allowing the VLM to eventually zero in on the best available answer. We investigate PIVOT on real-world robotic navigation, real-world manipulation from images, instruction following in simulation, and additional spatial inference tasks such as localization. We find, perhaps surprisingly, that our approach enables zero-shot control of robotic systems without any robot training data, navigation in a variety of environments, and other capabilities. Although current performance is far from perfect, our work highlights potentials and limitations of this new regime and shows a promising approach for Internet-Scale VLMs in robotic and spatial reasoning domains. Website: pivot-prompt.github.io and HuggingFace: https://huggingface.co/spaces/pivot-prompt/pivot-prompt-demo.
PDF162December 15, 2024