Visueel Autoregressief Modelleren voor Instructiegestuurd Afbeeldingsbewerken

Samenvatting

Recente vooruitgang in diffusiemodellen heeft opmerkelijke visuele kwaliteit gebracht bij instructiegestuurd beeldbewerking. Hun wereldwijde denoisingsproces verstrengelt echter inherent het bewerkte gebied met de volledige beeldcontext, wat leidt tot onbedoelde ongewenste wijzigingen en een verminderde naleving van de bewerkingsinstructies. Autoregressieve modellen bieden daarentegen een ander paradigma door beeld-synthese te formuleren als een sequentieel proces over discrete visuele tokens. Hun causale en compositionele mechanisme omzeilt op natuurlijke wijze de nalevingsuitdagingen van diffusiegebaseerde methoden. In dit artikel presenteren we VAREdit, een visueel autoregressief (VAR) raamwerk dat beeldbewerking herformuleert als een volgende-schaal voorspellingsprobleem. Geconditioneerd op bronbeeldkenmerken en tekstinstructies genereert VAREdit multi-schaal doelkenmerken om precieze bewerkingen te bereiken. Een kernuitdaging in dit paradigma is hoe de bronbeeldtokens effectief te conditioneren. We observeren dat fijnste-schaal bronkenmerken niet effectief kunnen leiden tot de voorspelling van grovere doelkenmerken. Om deze kloof te overbruggen introduceren we een Scale-Aligned Reference (SAR) module, die schaal-gematchte conditioneringinformatie injecteert in de eerste self-attention laag. VAREdit toont significante vooruitgang in zowel bewerkingsnaleving als efficiëntie. Op standaard benchmarks presteert het 30\%+ beter dan toonaangevende diffusiegebaseerde methoden volgens de GPT-Balance score. Bovendien voltooit het een 512x512 bewerking in 1.2 seconden, wat het 2.2x sneller maakt dan de vergelijkbaar grote UltraEdit. De modellen zijn beschikbaar op https://github.com/HiDream-ai/VAREdit.

English

Recent advances in diffusion models have brought remarkable visual fidelity to instruction-guided image editing. However, their global denoising process inherently entangles the edited region with the entire image context, leading to unintended spurious modifications and compromised adherence to editing instructions. In contrast, autoregressive models offer a distinct paradigm by formulating image synthesis as a sequential process over discrete visual tokens. Their causal and compositional mechanism naturally circumvents the adherence challenges of diffusion-based methods. In this paper, we present VAREdit, a visual autoregressive (VAR) framework that reframes image editing as a next-scale prediction problem. Conditioned on source image features and text instructions, VAREdit generates multi-scale target features to achieve precise edits. A core challenge in this paradigm is how to effectively condition the source image tokens. We observe that finest-scale source features cannot effectively guide the prediction of coarser target features. To bridge this gap, we introduce a Scale-Aligned Reference (SAR) module, which injects scale-matched conditioning information into the first self-attention layer. VAREdit demonstrates significant advancements in both editing adherence and efficiency. On standard benchmarks, it outperforms leading diffusion-based methods by 30\%+ higher GPT-Balance score. Moreover, it completes a 512times512 editing in 1.2 seconds, making it 2.2times faster than the similarly sized UltraEdit. The models are available at https://github.com/HiDream-ai/VAREdit.

Visueel Autoregressief Modelleren voor Instructiegestuurd Afbeeldingsbewerken

Visual Autoregressive Modeling for Instruction-Guided Image Editing

Samenvatting

Support