Visuelles autoregressives Modellieren für anweisungsgesteuerte Bildbearbeitung
Visual Autoregressive Modeling for Instruction-Guided Image Editing
August 21, 2025
papers.authors: Qingyang Mao, Qi Cai, Yehao Li, Yingwei Pan, Mingyue Cheng, Ting Yao, Qi Liu, Tao Mei
cs.AI
papers.abstract
Jüngste Fortschritte in Diffusionsmodellen haben eine bemerkenswerte visuelle Qualität bei der anweisungsgesteuerten Bildbearbeitung erreicht. Ihr globaler Denoising-Prozess verknüpft jedoch den bearbeiteten Bereich zwangsläufig mit dem gesamten Bildkontext, was zu unbeabsichtigten, unerwünschten Modifikationen und einer beeinträchtigten Einhaltung der Bearbeitungsanweisungen führt. Im Gegensatz dazu bieten autoregressive Modelle ein alternatives Paradigma, indem sie die Bildsynthese als sequenziellen Prozess über diskrete visuelle Tokens formulieren. Ihr kausaler und kompositioneller Mechanismus umgeht natürlicherweise die Einhaltungsprobleme diffusionsbasierter Methoden. In diesem Artikel stellen wir VAREdit vor, ein visuelles autoregressives (VAR) Framework, das die Bildbearbeitung als ein Next-Scale-Vorhersageproblem neu definiert. Basierend auf Quellbildmerkmalen und Textanweisungen generiert VAREdit mehrskalige Zielmerkmale, um präzise Bearbeitungen zu erreichen. Eine zentrale Herausforderung in diesem Paradigma ist die effektive Konditionierung der Quellbild-Tokens. Wir beobachten, dass feinstskalige Quellmerkmale die Vorhersage gröberer Zielmerkmale nicht effektiv leiten können. Um diese Lücke zu schließen, führen wir ein Scale-Aligned Reference (SAR)-Modul ein, das skalengerechte Konditionierungsinformationen in die erste Self-Attention-Schicht einfügt. VAREdit zeigt signifikante Fortschritte sowohl in der Bearbeitungsgenauigkeit als auch in der Effizienz. Auf Standard-Benchmarks übertrifft es führende diffusionsbasierte Methoden um mehr als 30 % im GPT-Balance-Score. Darüber hinaus vollendet es eine 512x512-Bearbeitung in 1,2 Sekunden, was es 2,2-mal schneller macht als das ähnlich große UltraEdit. Die Modelle sind unter https://github.com/HiDream-ai/VAREdit verfügbar.
English
Recent advances in diffusion models have brought remarkable visual fidelity
to instruction-guided image editing. However, their global denoising process
inherently entangles the edited region with the entire image context, leading
to unintended spurious modifications and compromised adherence to editing
instructions. In contrast, autoregressive models offer a distinct paradigm by
formulating image synthesis as a sequential process over discrete visual
tokens. Their causal and compositional mechanism naturally circumvents the
adherence challenges of diffusion-based methods. In this paper, we present
VAREdit, a visual autoregressive (VAR) framework that reframes image editing as
a next-scale prediction problem. Conditioned on source image features and text
instructions, VAREdit generates multi-scale target features to achieve precise
edits. A core challenge in this paradigm is how to effectively condition the
source image tokens. We observe that finest-scale source features cannot
effectively guide the prediction of coarser target features. To bridge this
gap, we introduce a Scale-Aligned Reference (SAR) module, which injects
scale-matched conditioning information into the first self-attention layer.
VAREdit demonstrates significant advancements in both editing adherence and
efficiency. On standard benchmarks, it outperforms leading diffusion-based
methods by 30\%+ higher GPT-Balance score. Moreover, it completes a
512times512 editing in 1.2 seconds, making it 2.2times faster than the
similarly sized UltraEdit. The models are available at
https://github.com/HiDream-ai/VAREdit.