PIVOT: El aviso visual iterativo obtiene conocimiento accionable para los modelos de lenguaje visual
PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs
February 12, 2024
Autores: Soroush Nasiriany, Fei Xia, Wenhao Yu, Ted Xiao, Jacky Liang, Ishita Dasgupta, Annie Xie, Danny Driess, Ayzaan Wahid, Zhuo Xu, Quan Vuong, Tingnan Zhang, Tsang-Wei Edward Lee, Kuang-Huei Lee, Peng Xu, Sean Kirmani, Yuke Zhu, Andy Zeng, Karol Hausman, Nicolas Heess, Chelsea Finn, Sergey Levine, Brian Ichter
cs.AI
Resumen
Los modelos de lenguaje visual (VLMs, por sus siglas en inglés) han demostrado capacidades impresionantes en una variedad de tareas, desde el razonamiento lógico hasta la comprensión visual. Esto abre la puerta a una interacción más rica con el mundo, como, por ejemplo, el control robótico. Sin embargo, los VLMs solo producen salidas textuales, mientras que el control robótico y otras tareas espaciales requieren generar coordenadas continuas, acciones o trayectorias. ¿Cómo podemos permitir que los VLMs manejen este tipo de escenarios sin necesidad de ajustes específicos con datos de la tarea?
En este artículo, proponemos un novedoso enfoque de indicación visual para VLMs que denominamos *Prompting with Iterative Visual Optimization* (PIVOT), el cual plantea las tareas como un proceso iterativo de preguntas y respuestas visuales. En cada iteración, la imagen se anota con una representación visual de propuestas a las que el VLM puede referirse (por ejemplo, acciones robóticas candidatas, localizaciones o trayectorias). Luego, el VLM selecciona las mejores para la tarea. Estas propuestas se refinan de manera iterativa, permitiendo que el VLM converja eventualmente hacia la mejor respuesta disponible. Investigamos PIVOT en tareas de navegación robótica en el mundo real, manipulación basada en imágenes, seguimiento de instrucciones en simulación y tareas adicionales de inferencia espacial, como la localización. Encontramos, quizás sorprendentemente, que nuestro enfoque permite el control *zero-shot* de sistemas robóticos sin necesidad de datos de entrenamiento específicos, la navegación en diversos entornos y otras capacidades. Aunque el rendimiento actual está lejos de ser perfecto, nuestro trabajo destaca los potenciales y limitaciones de este nuevo régimen y muestra un enfoque prometedor para los VLMs a escala de Internet en dominios de razonamiento robótico y espacial. Sitio web: pivot-prompt.github.io y HuggingFace: https://huggingface.co/spaces/pivot-prompt/pivot-prompt-demo.
English
Vision language models (VLMs) have shown impressive capabilities across a
variety of tasks, from logical reasoning to visual understanding. This opens
the door to richer interaction with the world, for example robotic control.
However, VLMs produce only textual outputs, while robotic control and other
spatial tasks require outputting continuous coordinates, actions, or
trajectories. How can we enable VLMs to handle such settings without
fine-tuning on task-specific data?
In this paper, we propose a novel visual prompting approach for VLMs that we
call Prompting with Iterative Visual Optimization (PIVOT), which casts tasks as
iterative visual question answering. In each iteration, the image is annotated
with a visual representation of proposals that the VLM can refer to (e.g.,
candidate robot actions, localizations, or trajectories). The VLM then selects
the best ones for the task. These proposals are iteratively refined, allowing
the VLM to eventually zero in on the best available answer. We investigate
PIVOT on real-world robotic navigation, real-world manipulation from images,
instruction following in simulation, and additional spatial inference tasks
such as localization. We find, perhaps surprisingly, that our approach enables
zero-shot control of robotic systems without any robot training data,
navigation in a variety of environments, and other capabilities. Although
current performance is far from perfect, our work highlights potentials and
limitations of this new regime and shows a promising approach for
Internet-Scale VLMs in robotic and spatial reasoning domains. Website:
pivot-prompt.github.io and HuggingFace:
https://huggingface.co/spaces/pivot-prompt/pivot-prompt-demo.