Исследование визуального планирования в моделях редактирования изображений
Probing Visual Planning in Image Editing Models
April 23, 2026
Авторы: Zhimu Zhou, Yanpeng Zhao, Qiuyu Liao, Bo Zhao, Xiaojian Ma
cs.AI
Аннотация
Визуальное планирование представляет собой ключевой аспект человеческого интеллекта, особенно в задачах, требующих сложного пространственного мышления и навигации. Однако в машинном обучении эта по своей сути визуальная проблема часто решается через вербально-ориентированную призму. Хотя последние исследования демонстрируют перспективность полностью визуальных подходов, они страдают от значительной вычислительной неэффективности из-за пошаговой парадигмы планирования-через-генерацию. В данной работе мы представляем EAR — парадигму редактирования-как-рассуждения, которая переформулирует визуальное планирование как одношаговое преобразование изображения. Чтобы изолировать внутреннее рассуждение от визуального распознавания, мы используем абстрактные головоломки в качестве зондирующих задач и представляем AMAZE, процедурно генерируемый набор данных, включающий классические задачи Лабиринта и Ферзей, охватывающие различные, взаимодополняющие формы визуального планирования. Абстрактная природа AMAZE также способствует автоматической оценке авторегрессионных и диффузионных моделей как с точки зрения пиксельной точности, так и логической корректности. Мы оцениваем ведущие проприетарные и открытые модели редактирования. Результаты показывают, что все они испытывают трудности в условиях zero-shot, однако дообучение на базовых масштабах обеспечивает значительную генерализацию на более крупные внутридоменные масштабы, а также на внедоменные масштабы и геометрии. Тем не менее, наша лучшая модель, работающая на высокопроизводительном оборудовании, не может сравниться с эффективностью zero-shot человеческих решателей, что подчеркивает сохраняющийся разрыв в области нейронного визуального мышления.
English
Visual planning represents a crucial facet of human intelligence, especially in tasks that require complex spatial reasoning and navigation. Yet, in machine learning, this inherently visual problem is often tackled through a verbal-centric lens. While recent research demonstrates the promise of fully visual approaches, they suffer from significant computational inefficiency due to the step-by-step planning-by-generation paradigm. In this work, we present EAR, an editing-as-reasoning paradigm that reformulates visual planning as a single-step image transformation. To isolate intrinsic reasoning from visual recognition, we employ abstract puzzles as probing tasks and introduce AMAZE, a procedurally generated dataset that features the classical Maze and Queen problems, covering distinct, complementary forms of visual planning. The abstract nature of AMAZE also facilitates automatic evaluation of autoregressive and diffusion-based models in terms of both pixel-wise fidelity and logical validity. We assess leading proprietary and open-source editing models. The results show that they all struggle in the zero-shot setting, finetuning on basic scales enables remarkable generalization to larger in-domain scales and out-of-domain scales and geometries. However, our best model that runs on high-end hardware fails to match the zero-shot efficiency of human solvers, highlighting a persistent gap in neural visual reasoning.