PIVOT: 反復的ビジュアルプロンプティングによるVLMの実用的知識の抽出
PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs
February 12, 2024
著者: Soroush Nasiriany, Fei Xia, Wenhao Yu, Ted Xiao, Jacky Liang, Ishita Dasgupta, Annie Xie, Danny Driess, Ayzaan Wahid, Zhuo Xu, Quan Vuong, Tingnan Zhang, Tsang-Wei Edward Lee, Kuang-Huei Lee, Peng Xu, Sean Kirmani, Yuke Zhu, Andy Zeng, Karol Hausman, Nicolas Heess, Chelsea Finn, Sergey Levine, Brian Ichter
cs.AI
要旨
ビジョン言語モデル(VLMs)は、論理的推論から視覚的理解まで、さまざまなタスクで印象的な能力を示しています。これにより、例えばロボット制御など、世界とのより豊かな相互作用の扉が開かれます。しかし、VLMsはテキスト出力のみを生成する一方で、ロボット制御やその他の空間的タスクでは、連続的な座標、アクション、または軌跡を出力する必要があります。タスク固有のデータでファインチューニングすることなく、VLMsがそのような設定を処理できるようにするにはどうすればよいでしょうか?
本論文では、VLMsのための新しい視覚的プロンプティングアプローチを提案します。これを「Prompting with Iterative Visual Optimization(PIVOT)」と呼び、タスクを反復的な視覚的質問応答としてキャストします。各反復において、画像はVLMsが参照できる提案の視覚的表現(例えば、候補となるロボットアクション、位置特定、または軌跡)で注釈付けされます。その後、VLMはタスクに最適な提案を選択します。これらの提案は反復的に洗練され、VLMが最終的に最適な答えにたどり着くことを可能にします。私たちは、PIVOTを実世界のロボットナビゲーション、画像からの実世界の操作、シミュレーションでの指示追従、および位置特定などの追加の空間推論タスクで調査しました。驚くべきことに、私たちのアプローチは、ロボットトレーニングデータなしでロボットシステムのゼロショット制御、さまざまな環境でのナビゲーション、およびその他の能力を可能にすることがわかりました。現在のパフォーマンスは完璧とは程遠いですが、私たちの研究はこの新しい体制の可能性と限界を強調し、ロボットおよび空間推論領域でのインターネットスケールVLMsの有望なアプローチを示しています。ウェブサイト:pivot-prompt.github.io および HuggingFace:https://huggingface.co/spaces/pivot-prompt/pivot-prompt-demo。
English
Vision language models (VLMs) have shown impressive capabilities across a
variety of tasks, from logical reasoning to visual understanding. This opens
the door to richer interaction with the world, for example robotic control.
However, VLMs produce only textual outputs, while robotic control and other
spatial tasks require outputting continuous coordinates, actions, or
trajectories. How can we enable VLMs to handle such settings without
fine-tuning on task-specific data?
In this paper, we propose a novel visual prompting approach for VLMs that we
call Prompting with Iterative Visual Optimization (PIVOT), which casts tasks as
iterative visual question answering. In each iteration, the image is annotated
with a visual representation of proposals that the VLM can refer to (e.g.,
candidate robot actions, localizations, or trajectories). The VLM then selects
the best ones for the task. These proposals are iteratively refined, allowing
the VLM to eventually zero in on the best available answer. We investigate
PIVOT on real-world robotic navigation, real-world manipulation from images,
instruction following in simulation, and additional spatial inference tasks
such as localization. We find, perhaps surprisingly, that our approach enables
zero-shot control of robotic systems without any robot training data,
navigation in a variety of environments, and other capabilities. Although
current performance is far from perfect, our work highlights potentials and
limitations of this new regime and shows a promising approach for
Internet-Scale VLMs in robotic and spatial reasoning domains. Website:
pivot-prompt.github.io and HuggingFace:
https://huggingface.co/spaces/pivot-prompt/pivot-prompt-demo.