Visueel Autoregressief Modelleren voor Instructiegestuurd Afbeeldingsbewerken
Visual Autoregressive Modeling for Instruction-Guided Image Editing
August 21, 2025
Auteurs: Qingyang Mao, Qi Cai, Yehao Li, Yingwei Pan, Mingyue Cheng, Ting Yao, Qi Liu, Tao Mei
cs.AI
Samenvatting
Recente vooruitgang in diffusiemodellen heeft opmerkelijke visuele kwaliteit gebracht bij instructiegestuurd beeldbewerking. Hun wereldwijde denoisingsproces verstrengelt echter inherent het bewerkte gebied met de volledige beeldcontext, wat leidt tot onbedoelde ongewenste wijzigingen en een verminderde naleving van de bewerkingsinstructies. Autoregressieve modellen bieden daarentegen een ander paradigma door beeld-synthese te formuleren als een sequentieel proces over discrete visuele tokens. Hun causale en compositionele mechanisme omzeilt op natuurlijke wijze de nalevingsuitdagingen van diffusiegebaseerde methoden. In dit artikel presenteren we VAREdit, een visueel autoregressief (VAR) raamwerk dat beeldbewerking herformuleert als een volgende-schaal voorspellingsprobleem. Geconditioneerd op bronbeeldkenmerken en tekstinstructies genereert VAREdit multi-schaal doelkenmerken om precieze bewerkingen te bereiken. Een kernuitdaging in dit paradigma is hoe de bronbeeldtokens effectief te conditioneren. We observeren dat fijnste-schaal bronkenmerken niet effectief kunnen leiden tot de voorspelling van grovere doelkenmerken. Om deze kloof te overbruggen introduceren we een Scale-Aligned Reference (SAR) module, die schaal-gematchte conditioneringinformatie injecteert in de eerste self-attention laag. VAREdit toont significante vooruitgang in zowel bewerkingsnaleving als efficiëntie. Op standaard benchmarks presteert het 30\%+ beter dan toonaangevende diffusiegebaseerde methoden volgens de GPT-Balance score. Bovendien voltooit het een 512x512 bewerking in 1.2 seconden, wat het 2.2x sneller maakt dan de vergelijkbaar grote UltraEdit. De modellen zijn beschikbaar op https://github.com/HiDream-ai/VAREdit.
English
Recent advances in diffusion models have brought remarkable visual fidelity
to instruction-guided image editing. However, their global denoising process
inherently entangles the edited region with the entire image context, leading
to unintended spurious modifications and compromised adherence to editing
instructions. In contrast, autoregressive models offer a distinct paradigm by
formulating image synthesis as a sequential process over discrete visual
tokens. Their causal and compositional mechanism naturally circumvents the
adherence challenges of diffusion-based methods. In this paper, we present
VAREdit, a visual autoregressive (VAR) framework that reframes image editing as
a next-scale prediction problem. Conditioned on source image features and text
instructions, VAREdit generates multi-scale target features to achieve precise
edits. A core challenge in this paradigm is how to effectively condition the
source image tokens. We observe that finest-scale source features cannot
effectively guide the prediction of coarser target features. To bridge this
gap, we introduce a Scale-Aligned Reference (SAR) module, which injects
scale-matched conditioning information into the first self-attention layer.
VAREdit demonstrates significant advancements in both editing adherence and
efficiency. On standard benchmarks, it outperforms leading diffusion-based
methods by 30\%+ higher GPT-Balance score. Moreover, it completes a
512times512 editing in 1.2 seconds, making it 2.2times faster than the
similarly sized UltraEdit. The models are available at
https://github.com/HiDream-ai/VAREdit.