真のゼロショット構成視覚推論に向けて:LLMをプログラマーとして活用する
Towards Truly Zero-shot Compositional Visual Reasoning with LLMs as Programmers
January 3, 2024
著者: Aleksandar Stanić, Sergi Caelles, Michael Tschannen
cs.AI
要旨
視覚的推論は、数十億のモデルパラメータとトレーニング例をスケールさせたエンドツーエンドのニューラルネットワークによって支配されています。しかし、最大規模のモデルでさえ、合成的推論、一般化、細粒度の空間的・時間的推論、および計数に苦戦しています。大規模言語モデル(LLMs)をコントローラーとして用いた視覚的推論は、原理的には、タスクを分解し、一連の(視覚的)ツールを調整することでサブタスクを解決することで、これらの制限に対処できます。最近、これらのモデルは、合成的視覚質問応答、視覚的グラウンディング、ビデオ時間的推論などのタスクで優れた性能を達成しました。しかし、現状では、これらのモデルはプロンプト内のコンテキスト例の人間による設計に大きく依存しており、これらはしばしばデータセットやタスク固有であり、高度なスキルを持つプログラマーによる多大な労力を必要とします。本研究では、空間的および時間的に抽象的なルーチンを導入し、少数のラベル付き例を活用して自動的にコンテキスト例を生成することで、これらの問題を軽減するフレームワークを提案します。これにより、人間が作成したコンテキスト例を回避します。いくつかの視覚的推論タスクにおいて、我々のフレームワークが一貫した性能向上をもたらし、LLMsをコントローラーとしてのセットアップをより堅牢にし、コンテキスト例の人間による設計の必要性を排除することを示します。
English
Visual reasoning is dominated by end-to-end neural networks scaled to
billions of model parameters and training examples. However, even the largest
models struggle with compositional reasoning, generalization, fine-grained
spatial and temporal reasoning, and counting. Visual reasoning with large
language models (LLMs) as controllers can, in principle, address these
limitations by decomposing the task and solving subtasks by orchestrating a set
of (visual) tools. Recently, these models achieved great performance on tasks
such as compositional visual question answering, visual grounding, and video
temporal reasoning. Nevertheless, in their current form, these models heavily
rely on human engineering of in-context examples in the prompt, which are often
dataset- and task-specific and require significant labor by highly skilled
programmers. In this work, we present a framework that mitigates these issues
by introducing spatially and temporally abstract routines and by leveraging a
small number of labeled examples to automatically generate in-context examples,
thereby avoiding human-created in-context examples. On a number of visual
reasoning tasks, we show that our framework leads to consistent gains in
performance, makes LLMs as controllers setup more robust, and removes the need
for human engineering of in-context examples.