ChatPaper.aiChatPaper

Modelagem Autoregressiva Visual para Edição de Imagens Guiada por Instruções

Visual Autoregressive Modeling for Instruction-Guided Image Editing

August 21, 2025
Autores: Qingyang Mao, Qi Cai, Yehao Li, Yingwei Pan, Mingyue Cheng, Ting Yao, Qi Liu, Tao Mei
cs.AI

Resumo

Os recentes avanços nos modelos de difusão trouxeram uma fidelidade visual notável para a edição de imagens guiada por instruções. No entanto, seu processo global de remoção de ruídos inerentemente entrelaça a região editada com todo o contexto da imagem, levando a modificações espúrias não intencionais e comprometendo a aderência às instruções de edição. Em contraste, os modelos autoregressivos oferecem um paradigma distinto ao formular a síntese de imagens como um processo sequencial sobre tokens visuais discretos. Seu mecanismo causal e composicional naturalmente contorna os desafios de aderência dos métodos baseados em difusão. Neste artigo, apresentamos o VAREdit, uma estrutura autoregressiva visual (VAR) que reformula a edição de imagens como um problema de previsão de próxima escala. Condicionado nas características da imagem de origem e nas instruções de texto, o VAREdit gera características de destino em múltiplas escalas para realizar edições precisas. Um desafio central nesse paradigma é como condicionar efetivamente os tokens da imagem de origem. Observamos que as características de origem em escala mais fina não podem guiar efetivamente a previsão de características de destino mais grossas. Para preencher essa lacuna, introduzimos um módulo de Referência Alinhada à Escala (SAR), que injeta informações de condicionamento correspondentes à escala na primeira camada de auto-atenção. O VAREdit demonstra avanços significativos tanto na aderência à edição quanto na eficiência. Em benchmarks padrão, ele supera os principais métodos baseados em difusão com uma pontuação GPT-Balance 30\%+ maior. Além disso, ele completa uma edição de 512x512 em 1,2 segundos, tornando-o 2,2 vezes mais rápido que o UltraEdit de tamanho similar. Os modelos estão disponíveis em https://github.com/HiDream-ai/VAREdit.
English
Recent advances in diffusion models have brought remarkable visual fidelity to instruction-guided image editing. However, their global denoising process inherently entangles the edited region with the entire image context, leading to unintended spurious modifications and compromised adherence to editing instructions. In contrast, autoregressive models offer a distinct paradigm by formulating image synthesis as a sequential process over discrete visual tokens. Their causal and compositional mechanism naturally circumvents the adherence challenges of diffusion-based methods. In this paper, we present VAREdit, a visual autoregressive (VAR) framework that reframes image editing as a next-scale prediction problem. Conditioned on source image features and text instructions, VAREdit generates multi-scale target features to achieve precise edits. A core challenge in this paradigm is how to effectively condition the source image tokens. We observe that finest-scale source features cannot effectively guide the prediction of coarser target features. To bridge this gap, we introduce a Scale-Aligned Reference (SAR) module, which injects scale-matched conditioning information into the first self-attention layer. VAREdit demonstrates significant advancements in both editing adherence and efficiency. On standard benchmarks, it outperforms leading diffusion-based methods by 30\%+ higher GPT-Balance score. Moreover, it completes a 512times512 editing in 1.2 seconds, making it 2.2times faster than the similarly sized UltraEdit. The models are available at https://github.com/HiDream-ai/VAREdit.
PDF93August 22, 2025