ChatPaper.aiChatPaper

Visuelles autoregressives Modellieren für anweisungsgesteuerte Bildbearbeitung

Visual Autoregressive Modeling for Instruction-Guided Image Editing

August 21, 2025
papers.authors: Qingyang Mao, Qi Cai, Yehao Li, Yingwei Pan, Mingyue Cheng, Ting Yao, Qi Liu, Tao Mei
cs.AI

papers.abstract

Jüngste Fortschritte in Diffusionsmodellen haben eine bemerkenswerte visuelle Qualität bei der anweisungsgesteuerten Bildbearbeitung erreicht. Ihr globaler Denoising-Prozess verknüpft jedoch den bearbeiteten Bereich zwangsläufig mit dem gesamten Bildkontext, was zu unbeabsichtigten, unerwünschten Modifikationen und einer beeinträchtigten Einhaltung der Bearbeitungsanweisungen führt. Im Gegensatz dazu bieten autoregressive Modelle ein alternatives Paradigma, indem sie die Bildsynthese als sequenziellen Prozess über diskrete visuelle Tokens formulieren. Ihr kausaler und kompositioneller Mechanismus umgeht natürlicherweise die Einhaltungsprobleme diffusionsbasierter Methoden. In diesem Artikel stellen wir VAREdit vor, ein visuelles autoregressives (VAR) Framework, das die Bildbearbeitung als ein Next-Scale-Vorhersageproblem neu definiert. Basierend auf Quellbildmerkmalen und Textanweisungen generiert VAREdit mehrskalige Zielmerkmale, um präzise Bearbeitungen zu erreichen. Eine zentrale Herausforderung in diesem Paradigma ist die effektive Konditionierung der Quellbild-Tokens. Wir beobachten, dass feinstskalige Quellmerkmale die Vorhersage gröberer Zielmerkmale nicht effektiv leiten können. Um diese Lücke zu schließen, führen wir ein Scale-Aligned Reference (SAR)-Modul ein, das skalengerechte Konditionierungsinformationen in die erste Self-Attention-Schicht einfügt. VAREdit zeigt signifikante Fortschritte sowohl in der Bearbeitungsgenauigkeit als auch in der Effizienz. Auf Standard-Benchmarks übertrifft es führende diffusionsbasierte Methoden um mehr als 30 % im GPT-Balance-Score. Darüber hinaus vollendet es eine 512x512-Bearbeitung in 1,2 Sekunden, was es 2,2-mal schneller macht als das ähnlich große UltraEdit. Die Modelle sind unter https://github.com/HiDream-ai/VAREdit verfügbar.
English
Recent advances in diffusion models have brought remarkable visual fidelity to instruction-guided image editing. However, their global denoising process inherently entangles the edited region with the entire image context, leading to unintended spurious modifications and compromised adherence to editing instructions. In contrast, autoregressive models offer a distinct paradigm by formulating image synthesis as a sequential process over discrete visual tokens. Their causal and compositional mechanism naturally circumvents the adherence challenges of diffusion-based methods. In this paper, we present VAREdit, a visual autoregressive (VAR) framework that reframes image editing as a next-scale prediction problem. Conditioned on source image features and text instructions, VAREdit generates multi-scale target features to achieve precise edits. A core challenge in this paradigm is how to effectively condition the source image tokens. We observe that finest-scale source features cannot effectively guide the prediction of coarser target features. To bridge this gap, we introduce a Scale-Aligned Reference (SAR) module, which injects scale-matched conditioning information into the first self-attention layer. VAREdit demonstrates significant advancements in both editing adherence and efficiency. On standard benchmarks, it outperforms leading diffusion-based methods by 30\%+ higher GPT-Balance score. Moreover, it completes a 512times512 editing in 1.2 seconds, making it 2.2times faster than the similarly sized UltraEdit. The models are available at https://github.com/HiDream-ai/VAREdit.
PDF83August 22, 2025