이미지 편집 모델의 시각적 계획 능력 탐구
Probing Visual Planning in Image Editing Models
April 23, 2026
저자: Zhimu Zhou, Yanpeng Zhao, Qiuyu Liao, Bo Zhao, Xiaojian Ma
cs.AI
초록
시각적 계획은 인간 지능의 중요한 측면을 나타내며, 특히 복잡한 공간 추론과 탐색이 필요한 과제에서 두드러집니다. 그러나 기계 학습에서는 본질적으로 시각적인 이 문제가 종종 언어 중심의 시각으로 접근됩니다. 최근 연구가 완전히 시각적인 접근법의 가능성을 보여주지만, 단계별 생성에 의한 계획 패러다임으로 인해 심각한 계산 비효율성을 겪고 있습니다. 본 연구에서는 시각적 계획을 단일 단계 이미지 변환으로 재정립하는 추론으로서의 편집(editing-as-reasoning) 패러다임인 EAR를 제시합니다. 본질적인 추론을 시각 인식으로부터 분리하기 위해 추상적인 퍼즐을 탐색 과제로 활용하고, 고유하고 상호 보완적인 형태의 시각적 계획을 포괄하는 고전적인 미로와 퀸 문제를 특징으로 하는 절차적 생성 데이터셋인 AMAZE를 소개합니다. AMAZE의 추상적 특성은 또한 픽셀 단위 정확도와 논리적 타당성 측면에서 자기회귀 및 확산 기반 모델의 자동 평가를 용이하게 합니다. 우리는 주요 독점 및 오픈소스 편집 모델을 평가했습니다. 결과는 모든 모델이 제로샷 환경에서 어려움을 겪지만, 기본 규모에 대한 미세 조정이 더 큰 도메인 내 규모와 도메인 외 규모 및 기하학으로의 놀라운 일반화를 가능하게 함을 보여줍니다. 그러나 고사양 하드웨어에서 실행되는 우리의 최고 성능 모델도 인간 해결사의 제로샷 효율성을 따라가지 못하며, 이는 신경망 시각 추론의 지속적인 격차를 강조합니다.
English
Visual planning represents a crucial facet of human intelligence, especially in tasks that require complex spatial reasoning and navigation. Yet, in machine learning, this inherently visual problem is often tackled through a verbal-centric lens. While recent research demonstrates the promise of fully visual approaches, they suffer from significant computational inefficiency due to the step-by-step planning-by-generation paradigm. In this work, we present EAR, an editing-as-reasoning paradigm that reformulates visual planning as a single-step image transformation. To isolate intrinsic reasoning from visual recognition, we employ abstract puzzles as probing tasks and introduce AMAZE, a procedurally generated dataset that features the classical Maze and Queen problems, covering distinct, complementary forms of visual planning. The abstract nature of AMAZE also facilitates automatic evaluation of autoregressive and diffusion-based models in terms of both pixel-wise fidelity and logical validity. We assess leading proprietary and open-source editing models. The results show that they all struggle in the zero-shot setting, finetuning on basic scales enables remarkable generalization to larger in-domain scales and out-of-domain scales and geometries. However, our best model that runs on high-end hardware fails to match the zero-shot efficiency of human solvers, highlighting a persistent gap in neural visual reasoning.