画像編集モデルにおける視覚的計画の検証
Probing Visual Planning in Image Editing Models
April 23, 2026
著者: Zhimu Zhou, Yanpeng Zhao, Qiuyu Liao, Bo Zhao, Xiaojian Ma
cs.AI
要旨
視覚的計画は、特に複雑な空間推論とナビゲーションを必要とするタスクにおいて、人間の知性の重要な側面を表している。しかし機械学習において、この本質的に視覚的な問題は、しばしば言語中心の視点から取り組まれてきた。最近の研究は完全に視覚的なアプローチの可能性を示しているものの、段階的な「生成による計画」パラダイムのために、計算効率の面で大きな問題を抱えている。本研究では、視覚的計画を単一ステップの画像変換として再定義する、推論としての編集(editing-as-reasoning)パラダイムであるEARを提案する。本質的な推論を視覚的認識から分離するために、抽象的なパズルを検証タスクとして採用し、古典的な迷路問題とクイーン問題を特徴とする、補完的な異なる形式の視覚的計画を網羅した手続き的に生成されたデータセットAMAZEを導入する。AMAZEの抽象的な性質は、自己回帰モデルと拡散モデルの両方を、画素単位の忠実度と論理的正しさの観点から自動評価することを可能にする。我々は主要なプロプライエタリ及びオープンソースの編集モデルを評価した。結果は、ゼロショット設定では全てのモデルが苦戦するものの、基本的なスケールでファインチューニングを行うことで、より大きなドメイン内スケール、およびドメイン外のスケールや幾何学形状への顕著な一般化が可能となることを示した。しかし、高性能ハードウェアで動作する我々の最良モデルでさえ、人間の解決者のゼロショット効率には及ばず、神経視覚推論における根強い隔たりが浮き彫りとなった。
English
Visual planning represents a crucial facet of human intelligence, especially in tasks that require complex spatial reasoning and navigation. Yet, in machine learning, this inherently visual problem is often tackled through a verbal-centric lens. While recent research demonstrates the promise of fully visual approaches, they suffer from significant computational inefficiency due to the step-by-step planning-by-generation paradigm. In this work, we present EAR, an editing-as-reasoning paradigm that reformulates visual planning as a single-step image transformation. To isolate intrinsic reasoning from visual recognition, we employ abstract puzzles as probing tasks and introduce AMAZE, a procedurally generated dataset that features the classical Maze and Queen problems, covering distinct, complementary forms of visual planning. The abstract nature of AMAZE also facilitates automatic evaluation of autoregressive and diffusion-based models in terms of both pixel-wise fidelity and logical validity. We assess leading proprietary and open-source editing models. The results show that they all struggle in the zero-shot setting, finetuning on basic scales enables remarkable generalization to larger in-domain scales and out-of-domain scales and geometries. However, our best model that runs on high-end hardware fails to match the zero-shot efficiency of human solvers, highlighting a persistent gap in neural visual reasoning.