Modélisation Autoregressive Visuelle pour l'Édition d'Images Guidée par Instructions
Visual Autoregressive Modeling for Instruction-Guided Image Editing
August 21, 2025
papers.authors: Qingyang Mao, Qi Cai, Yehao Li, Yingwei Pan, Mingyue Cheng, Ting Yao, Qi Liu, Tao Mei
cs.AI
papers.abstract
Les récents progrès des modèles de diffusion ont permis d’atteindre une fidélité visuelle remarquable dans l’édition d’images guidée par des instructions. Cependant, leur processus global de débruitage intrique intrinsèquement la région modifiée avec l’ensemble du contexte de l’image, entraînant des modifications parasites non intentionnelles et une adhérence compromise aux instructions d’édition. En revanche, les modèles autorégressifs offrent un paradigme distinct en formulant la synthèse d’images comme un processus séquentiel sur des tokens visuels discrets. Leur mécanisme causal et compositionnel contourne naturellement les défis d’adhérence des méthodes basées sur la diffusion. Dans cet article, nous présentons VAREdit, un cadre autorégressif visuel (VAR) qui reformule l’édition d’images comme un problème de prédiction à l’échelle suivante. Conditionné sur les caractéristiques de l’image source et les instructions textuelles, VAREdit génère des caractéristiques cibles multi-échelles pour réaliser des modifications précises. Un défi central dans ce paradigme est de savoir comment conditionner efficacement les tokens de l’image source. Nous observons que les caractéristiques source à l’échelle la plus fine ne peuvent pas guider efficacement la prédiction des caractéristiques cibles plus grossières. Pour combler cette lacune, nous introduisons un module de référence aligné à l’échelle (SAR), qui injecte des informations de conditionnement alignées à l’échelle dans la première couche d’auto-attention. VAREdit démontre des avancées significatives à la fois en termes d’adhérence à l’édition et d’efficacité. Sur des benchmarks standard, il surpasse les principales méthodes basées sur la diffusion avec un score GPT-Balance supérieur de 30 % ou plus. De plus, il réalise une édition 512×512 en 1,2 seconde, ce qui le rend 2,2 fois plus rapide qu’UltraEdit de taille similaire. Les modèles sont disponibles à l’adresse https://github.com/HiDream-ai/VAREdit.
English
Recent advances in diffusion models have brought remarkable visual fidelity
to instruction-guided image editing. However, their global denoising process
inherently entangles the edited region with the entire image context, leading
to unintended spurious modifications and compromised adherence to editing
instructions. In contrast, autoregressive models offer a distinct paradigm by
formulating image synthesis as a sequential process over discrete visual
tokens. Their causal and compositional mechanism naturally circumvents the
adherence challenges of diffusion-based methods. In this paper, we present
VAREdit, a visual autoregressive (VAR) framework that reframes image editing as
a next-scale prediction problem. Conditioned on source image features and text
instructions, VAREdit generates multi-scale target features to achieve precise
edits. A core challenge in this paradigm is how to effectively condition the
source image tokens. We observe that finest-scale source features cannot
effectively guide the prediction of coarser target features. To bridge this
gap, we introduce a Scale-Aligned Reference (SAR) module, which injects
scale-matched conditioning information into the first self-attention layer.
VAREdit demonstrates significant advancements in both editing adherence and
efficiency. On standard benchmarks, it outperforms leading diffusion-based
methods by 30\%+ higher GPT-Balance score. Moreover, it completes a
512times512 editing in 1.2 seconds, making it 2.2times faster than the
similarly sized UltraEdit. The models are available at
https://github.com/HiDream-ai/VAREdit.