ホワイトボード・オブ・シンキング:モダリティを跨いだ段階的思考
Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities
June 20, 2024
著者: Sachit Menon, Richard Zemel, Carl Vondrick
cs.AI
要旨
視覚的思考を必要とする問題に直面したとき、人間は自然に推論モードを切り替え、しばしば心の中にイメージを形成したり、視覚的な補助手段を描いたりします。大規模言語モデルは、中間推論をテキストとして連鎖的に表現するチェーン・オブ・ソート(chain-of-thought)によって、算術や記号的推論において有望な結果を示していますが、視覚的推論によって容易に解決できるテキストクエリにこの能力を拡張することは困難であり、多様なマルチモーダル事前学習を行っても同様です。本研究では、マルチモーダル大規模言語モデルの視覚的推論能力を異なるモダリティ間で解放するためのシンプルな手法、ホワイトボード・オブ・ソート(whiteboard-of-thought)プロンプティングを提案します。ホワイトボード・オブ・ソートプロンプティングは、マルチモーダル大規模言語モデルに比喩的な「ホワイトボード」を提供し、推論ステップを画像として描き出させ、その後これらの画像をモデルに戻してさらなる処理を行わせます。これは、デモンストレーションや特殊なモジュールを必要とせず、MatplotlibやTurtleなどのライブラリを使用してコードを書くモデルの既存の能力を活用することで実現できます。このシンプルなアプローチは、視覚的および空間的推論を必要とする4つの難しい自然言語タスクにおいて、最先端の結果を示しています。GPT-4oがチェーン・オブ・ソートを使用しても劇的に失敗する複数の設定を特定し、そのうちのいくつかでは0%の精度しか達成できないのに対し、ホワイトボード・オブ・ソートは同じ設定で最大92%の精度を実現します。本手法が成功する場面とそのエラーの源について詳細な探求を行います。
English
When presented with questions involving visual thinking, humans naturally
switch reasoning modalities, often forming mental images or drawing visual
aids. Large language models have shown promising results in arithmetic and
symbolic reasoning by expressing intermediate reasoning in text as a chain of
thought, yet struggle to extend this capability to answer text queries that are
easily solved by visual reasoning, even with extensive multimodal pretraining.
We introduce a simple method, whiteboard-of-thought prompting, to unlock the
visual reasoning capabilities of multimodal large language models across
modalities. Whiteboard-of-thought prompting provides multimodal large language
models with a metaphorical `whiteboard' to draw out reasoning steps as images,
then returns these images back to the model for further processing. We find
this can be accomplished with no demonstrations or specialized modules, instead
leveraging models' existing ability to write code with libraries such as
Matplotlib and Turtle. This simple approach shows state-of-the-art results on
four difficult natural language tasks that involve visual and spatial
reasoning. We identify multiple settings where GPT-4o using chain-of-thought
fails dramatically, including more than one where it achieves 0% accuracy,
while whiteboard-of-thought enables up to 92% accuracy in these same
settings. We present a detailed exploration of where the technique succeeds as
well as its sources of error.Summary
AI-Generated Summary