Exploration de la planification visuelle dans les modèles d'édition d'image

Résumé

La planification visuelle représente un aspect crucial de l'intelligence humaine, particulièrement dans les tâches nécessitant un raisonnement spatial et une navigation complexes. Pourtant, en apprentissage automatique, ce problème intrinsèquement visuel est souvent abordé sous un angle verbal. Bien que des recherches récentes démontrent le potentiel des approches entièrement visuelles, celles-ci souffrent d'une importante inefficacité computationnelle due au paradigme de planification pas-à-par-génération. Dans ce travail, nous présentons EAR, un paradigme d'édition-comme-raisonnement qui reformule la planification visuelle comme une transformation d'image en une seule étape. Pour isoler le raisonnement intrinsèque de la reconnaissance visuelle, nous utilisons des puzzles abstraits comme tâches d'évaluation et introduisons AMAZE, un ensemble de données généré de manière procédurale qui présente les problèmes classiques du Labyrinthe et de la Reine, couvrant des formes distinctes et complémentaires de planification visuelle. La nature abstraite d'AMAZE facilite également l'évaluation automatique des modèles autorégressifs et basés sur la diffusion en termes de fidélité pixel et de validité logique. Nous évaluons les principaux modèles d'édition propriétaires et open-source. Les résultats montrent qu'ils éprouvent tous des difficultés en configuration zéro-shot, mais qu'un fine-tuning sur des échelles basiques permet une généralisation remarquable vers des échelles plus grandes dans le domaine et hors du domaine, ainsi que vers différentes géométries. Cependant, notre meilleur modèle exécuté sur du matériel haut de gamme n'atteint pas l'efficacité zéro-shot des solveurs humains, soulignant un écart persistant dans le raisonnement visuel neuronal.

English

Visual planning represents a crucial facet of human intelligence, especially in tasks that require complex spatial reasoning and navigation. Yet, in machine learning, this inherently visual problem is often tackled through a verbal-centric lens. While recent research demonstrates the promise of fully visual approaches, they suffer from significant computational inefficiency due to the step-by-step planning-by-generation paradigm. In this work, we present EAR, an editing-as-reasoning paradigm that reformulates visual planning as a single-step image transformation. To isolate intrinsic reasoning from visual recognition, we employ abstract puzzles as probing tasks and introduce AMAZE, a procedurally generated dataset that features the classical Maze and Queen problems, covering distinct, complementary forms of visual planning. The abstract nature of AMAZE also facilitates automatic evaluation of autoregressive and diffusion-based models in terms of both pixel-wise fidelity and logical validity. We assess leading proprietary and open-source editing models. The results show that they all struggle in the zero-shot setting, finetuning on basic scales enables remarkable generalization to larger in-domain scales and out-of-domain scales and geometries. However, our best model that runs on high-end hardware fails to match the zero-shot efficiency of human solvers, highlighting a persistent gap in neural visual reasoning.

Exploration de la planification visuelle dans les modèles d'édition d'image

Probing Visual Planning in Image Editing Models

Résumé

Support