Orientação por Atenção Relativa de Grupo para Edição de Imagens
Group Relative Attention Guidance for Image Editing
October 28, 2025
Autores: Xuanpu Zhang, Xuesong Niu, Ruidong Chen, Dan Song, Jianhao Zeng, Penghui Du, Haoxiang Cao, Kai Wu, An-an Liu
cs.AI
Resumo
Recentemente, a edição de imagens baseada em modelos Diffusion-in-Transformer (DiT) tem passado por um desenvolvimento rápido. No entanto, os métodos de edição existentes frequentemente carecem de um controle efetivo sobre o grau de edição, limitando sua capacidade de alcançar resultados mais personalizados. Para superar esta limitação, investigamos o mecanismo de MM-Atenção dentro do modelo DiT e observamos que os tokens de Consulta (Query) e Chave (Key) compartilham um vetor de viés (bias) que é dependente apenas da camada. Nós interpretamos este viés como representando o comportamento de edição inerente ao modelo, enquanto a diferença (delta) entre cada token e seu viés correspondente codifica os sinais de edição específicos do conteúdo. Com base nesta percepção, propomos o Group Relative Attention Guidance (GRAG), um método simples mas eficaz que repondera os valores delta de diferentes tokens para modular o foco do modelo na imagem de entrada em relação à instrução de edição, permitindo um controle contínuo e de granularidade fina sobre a intensidade da edição sem qualquer ajuste (tuning). Experimentos extensivos conduzidos em frameworks de edição de imagem existentes demonstram que o GRAG pode ser integrado com apenas quatro linhas de código, melhorando consistentemente a qualidade da edição. Além disso, em comparação com o Guia Livre de Classificador (Classifier-Free Guidance), amplamente utilizado, o GRAG alcança um controle mais suave e preciso sobre o grau de edição. Nosso código será liberado em https://github.com/little-misfit/GRAG-Image-Editing.
English
Recently, image editing based on Diffusion-in-Transformer models has
undergone rapid development. However, existing editing methods often lack
effective control over the degree of editing, limiting their ability to achieve
more customized results. To address this limitation, we investigate the
MM-Attention mechanism within the DiT model and observe that the Query and Key
tokens share a bias vector that is only layer-dependent. We interpret this bias
as representing the model's inherent editing behavior, while the delta between
each token and its corresponding bias encodes the content-specific editing
signals. Based on this insight, we propose Group Relative Attention Guidance, a
simple yet effective method that reweights the delta values of different tokens
to modulate the focus of the model on the input image relative to the editing
instruction, enabling continuous and fine-grained control over editing
intensity without any tuning. Extensive experiments conducted on existing image
editing frameworks demonstrate that GRAG can be integrated with as few as four
lines of code, consistently enhancing editing quality. Moreover, compared to
the commonly used Classifier-Free Guidance, GRAG achieves smoother and more
precise control over the degree of editing. Our code will be released at
https://github.com/little-misfit/GRAG-Image-Editing.