Investigando o Planejamento Visual em Modelos de Edição de Imagens
Probing Visual Planning in Image Editing Models
April 23, 2026
Autores: Zhimu Zhou, Yanpeng Zhao, Qiuyu Liao, Bo Zhao, Xiaojian Ma
cs.AI
Resumo
O planeamento visual representa uma faceta crucial da inteligência humana, especialmente em tarefas que exigem raciocínio espacial complexo e navegação. No entanto, na aprendizagem automática, este problema inerentemente visual é frequentemente abordado através de uma lente centrada na verbalização. Embora investigações recentes demonstrem o potencial de abordagens totalmente visuais, estas sofrem de uma ineficiência computacional significativa devido ao paradigma de planeamento-por-geração passo a passo. Neste trabalho, apresentamos o EAR, um paradigma de edição-como-raciocínio que reformula o planeamento visual como uma transformação de imagem em passo único. Para isolar o raciocínio intrínseco do reconhecimento visual, empregamos quebra-cabeças abstratos como tarefas de sondagem e introduzimos o AMAZE, um conjunto de dados gerado proceduralmente que inclui os problemas clássicos do Labirinto e da Rainha, abrangendo formas distintas e complementares de planeamento visual. A natureza abstrata do AMAZE também facilita a avaliação automática de modelos autoregressivos e baseados em difusão, tanto em termos de fidelidade pixel a pixel como de validade lógica. Avaliamos os principais modelos de edição proprietários e de código aberto. Os resultados mostram que todos eles têm dificuldades numa configuração de execução sem exemplos prévios (zero-shot), mas que a afinação de parâmetros em escalas básicas permite uma generalização notável para escalas maiores dentro do domínio e para escalas e geometrias fora do domínio. Contudo, o nosso melhor modelo, que é executado em hardware de alto desempenho, não consegue igualar a eficiência de solucionadores humanos sem exemplos prévios, destacando uma lacuna persistente no raciocínio visual neural.
English
Visual planning represents a crucial facet of human intelligence, especially in tasks that require complex spatial reasoning and navigation. Yet, in machine learning, this inherently visual problem is often tackled through a verbal-centric lens. While recent research demonstrates the promise of fully visual approaches, they suffer from significant computational inefficiency due to the step-by-step planning-by-generation paradigm. In this work, we present EAR, an editing-as-reasoning paradigm that reformulates visual planning as a single-step image transformation. To isolate intrinsic reasoning from visual recognition, we employ abstract puzzles as probing tasks and introduce AMAZE, a procedurally generated dataset that features the classical Maze and Queen problems, covering distinct, complementary forms of visual planning. The abstract nature of AMAZE also facilitates automatic evaluation of autoregressive and diffusion-based models in terms of both pixel-wise fidelity and logical validity. We assess leading proprietary and open-source editing models. The results show that they all struggle in the zero-shot setting, finetuning on basic scales enables remarkable generalization to larger in-domain scales and out-of-domain scales and geometries. However, our best model that runs on high-end hardware fails to match the zero-shot efficiency of human solvers, highlighting a persistent gap in neural visual reasoning.