ビジュアルプランニング:画像のみで思考しよう
Visual Planning: Let's Think Only with Images
May 16, 2025
著者: Yi Xu, Chengzu Li, Han Zhou, Xingchen Wan, Caiqi Zhang, Anna Korhonen, Ivan Vulić
cs.AI
要旨
大規模言語モデル(LLMs)とそのマルチモーダル拡張(MLLMs)の最近の進展により、多様なタスクにおける機械推論が大幅に向上しました。しかし、これらのモデルは、視覚情報が存在する場合でも、推論を表現し構造化するための媒体として純粋なテキストに主に依存しています。本研究では、特に空間的および幾何学的な情報を含むタスクにおいて、言語が必ずしも最も自然または効果的な推論のモダリティではないと主張します。これに動機づけられ、我々は新しいパラダイムである「Visual Planning(視覚的計画)」を提案します。これは、テキストに依存せず、純粋に視覚的表現を通じて計画を可能にするものです。このパラダイムでは、計画は視覚領域における段階的な推論をエンコードする一連の画像を通じて実行され、人間がスケッチや将来の行動を視覚化する方法に似ています。我々は、GRPOを活用した新しい強化学習フレームワーク「Visual Planning via Reinforcement Learning(VPRL)」を導入し、代表的な視覚ナビゲーションタスク(FrozenLake、Maze、MiniBehavior)における計画の大幅な改善を実現しました。我々の視覚的計画パラダイムは、テキストのみの空間で推論を行う他のすべての計画バリアントを凌駕します。この結果は、視覚的計画が言語ベースの推論に対する有効かつ有望な代替手段であることを示し、直感的な画像ベースの推論を必要とするタスクに新たな道を開くものです。
English
Recent advancements in Large Language Models (LLMs) and their multimodal
extensions (MLLMs) have substantially enhanced machine reasoning across diverse
tasks. However, these models predominantly rely on pure text as the medium for
both expressing and structuring reasoning, even when visual information is
present. In this work, we argue that language may not always be the most
natural or effective modality for reasoning, particularly in tasks involving
spatial and geometrical information. Motivated by this, we propose a new
paradigm, Visual Planning, which enables planning through purely visual
representations, independent of text. In this paradigm, planning is executed
via sequences of images that encode step-by-step inference in the visual
domain, akin to how humans sketch or visualize future actions. We introduce a
novel reinforcement learning framework, Visual Planning via Reinforcement
Learning (VPRL), empowered by GRPO for post-training large vision models,
leading to substantial improvements in planning in a selection of
representative visual navigation tasks, FrozenLake, Maze, and MiniBehavior. Our
visual planning paradigm outperforms all other planning variants that conduct
reasoning in the text-only space. Our results establish Visual Planning as a
viable and promising alternative to language-based reasoning, opening new
avenues for tasks that benefit from intuitive, image-based inference.Summary
AI-Generated Summary