Analisi della Pianificazione Visiva nei Modelli di Editing di Immagini
Probing Visual Planning in Image Editing Models
April 23, 2026
Autori: Zhimu Zhou, Yanpeng Zhao, Qiuyu Liao, Bo Zhao, Xiaojian Ma
cs.AI
Abstract
La pianificazione visiva rappresenta un aspetto cruciale dell'intelligenza umana, specialmente nei compiti che richiedono ragionamento spaziale e navigazione complessi. Tuttavia, nell'apprendimento automatico, questo problema intrinsecamente visivo viene spesso affrontato attraverso una lente centrata sul verbale. Sebbene ricerche recenti dimostrino la promessa di approcci completamente visivi, questi soffrono di una significativa inefficienza computazionale a causa del paradigma di pianificazione-per-generazione passo-passo. In questo lavoro, presentiamo EAR, un paradigma di editing-come-ragionamento che riformula la pianificazione visiva come una trasformazione dell'immagine in un singolo passo. Per isolare il ragionamento intrinseco dal riconoscimento visivo, utilizziamo enigmi astratti come compiti di indagine e introduciamo AMAZE, un dataset generato proceduralmente che presenta i classici problemi del Labirinto e della Regina, coprendo forme distinte e complementari di pianificazione visiva. La natura astratta di AMAZE facilita anche la valutazione automatica di modelli autoregressivi e basati su diffusione sia in termini di fedeltà pixel-per-pixel che di validità logica. Valutiamo i principali modelli di editing proprietari e open-source. I risultati mostrano che tutti hanno difficoltà in uno scenario zero-shot, mentre il fine-tuning su scale basiche consente una notevole generalizzazione a scale in-dominio più grandi e a scale e geometrie out-of-domain. Tuttavia, il nostro modello migliore, che viene eseguito su hardware di fascia alta, non riesce a eguagliare l'efficienza zero-shot dei risolutori umani, evidenziando un divario persistente nel ragionamento visivo neurale.
English
Visual planning represents a crucial facet of human intelligence, especially in tasks that require complex spatial reasoning and navigation. Yet, in machine learning, this inherently visual problem is often tackled through a verbal-centric lens. While recent research demonstrates the promise of fully visual approaches, they suffer from significant computational inefficiency due to the step-by-step planning-by-generation paradigm. In this work, we present EAR, an editing-as-reasoning paradigm that reformulates visual planning as a single-step image transformation. To isolate intrinsic reasoning from visual recognition, we employ abstract puzzles as probing tasks and introduce AMAZE, a procedurally generated dataset that features the classical Maze and Queen problems, covering distinct, complementary forms of visual planning. The abstract nature of AMAZE also facilitates automatic evaluation of autoregressive and diffusion-based models in terms of both pixel-wise fidelity and logical validity. We assess leading proprietary and open-source editing models. The results show that they all struggle in the zero-shot setting, finetuning on basic scales enables remarkable generalization to larger in-domain scales and out-of-domain scales and geometries. However, our best model that runs on high-end hardware fails to match the zero-shot efficiency of human solvers, highlighting a persistent gap in neural visual reasoning.