Modélisation Autoregressive Visuelle pour l'Édition d'Images Guidée par Instructions

papers.abstract

Les récents progrès des modèles de diffusion ont permis d’atteindre une fidélité visuelle remarquable dans l’édition d’images guidée par des instructions. Cependant, leur processus global de débruitage intrique intrinsèquement la région modifiée avec l’ensemble du contexte de l’image, entraînant des modifications parasites non intentionnelles et une adhérence compromise aux instructions d’édition. En revanche, les modèles autorégressifs offrent un paradigme distinct en formulant la synthèse d’images comme un processus séquentiel sur des tokens visuels discrets. Leur mécanisme causal et compositionnel contourne naturellement les défis d’adhérence des méthodes basées sur la diffusion. Dans cet article, nous présentons VAREdit, un cadre autorégressif visuel (VAR) qui reformule l’édition d’images comme un problème de prédiction à l’échelle suivante. Conditionné sur les caractéristiques de l’image source et les instructions textuelles, VAREdit génère des caractéristiques cibles multi-échelles pour réaliser des modifications précises. Un défi central dans ce paradigme est de savoir comment conditionner efficacement les tokens de l’image source. Nous observons que les caractéristiques source à l’échelle la plus fine ne peuvent pas guider efficacement la prédiction des caractéristiques cibles plus grossières. Pour combler cette lacune, nous introduisons un module de référence aligné à l’échelle (SAR), qui injecte des informations de conditionnement alignées à l’échelle dans la première couche d’auto-attention. VAREdit démontre des avancées significatives à la fois en termes d’adhérence à l’édition et d’efficacité. Sur des benchmarks standard, il surpasse les principales méthodes basées sur la diffusion avec un score GPT-Balance supérieur de 30 % ou plus. De plus, il réalise une édition 512×512 en 1,2 seconde, ce qui le rend 2,2 fois plus rapide qu’UltraEdit de taille similaire. Les modèles sont disponibles à l’adresse https://github.com/HiDream-ai/VAREdit.

English

Recent advances in diffusion models have brought remarkable visual fidelity to instruction-guided image editing. However, their global denoising process inherently entangles the edited region with the entire image context, leading to unintended spurious modifications and compromised adherence to editing instructions. In contrast, autoregressive models offer a distinct paradigm by formulating image synthesis as a sequential process over discrete visual tokens. Their causal and compositional mechanism naturally circumvents the adherence challenges of diffusion-based methods. In this paper, we present VAREdit, a visual autoregressive (VAR) framework that reframes image editing as a next-scale prediction problem. Conditioned on source image features and text instructions, VAREdit generates multi-scale target features to achieve precise edits. A core challenge in this paradigm is how to effectively condition the source image tokens. We observe that finest-scale source features cannot effectively guide the prediction of coarser target features. To bridge this gap, we introduce a Scale-Aligned Reference (SAR) module, which injects scale-matched conditioning information into the first self-attention layer. VAREdit demonstrates significant advancements in both editing adherence and efficiency. On standard benchmarks, it outperforms leading diffusion-based methods by 30\%+ higher GPT-Balance score. Moreover, it completes a 512times512 editing in 1.2 seconds, making it 2.2times faster than the similarly sized UltraEdit. The models are available at https://github.com/HiDream-ai/VAREdit.

Modélisation Autoregressive Visuelle pour l'Édition d'Images Guidée par Instructions

Visual Autoregressive Modeling for Instruction-Guided Image Editing

papers.abstract

Support