Guía de Atención Relativa Grupal para la Edición de Imágenes
Group Relative Attention Guidance for Image Editing
October 28, 2025
Autores: Xuanpu Zhang, Xuesong Niu, Ruidong Chen, Dan Song, Jianhao Zeng, Penghui Du, Haoxiang Cao, Kai Wu, An-an Liu
cs.AI
Resumen
Recientemente, la edición de imágenes basada en modelos de Difusión en Transformadores (DiT) ha experimentado un rápido desarrollo. Sin embargo, los métodos de edición existentes a menudo carecen de un control efectivo sobre el grado de edición, lo que limita su capacidad para lograr resultados más personalizados. Para abordar esta limitación, investigamos el mecanismo de Atención Multi-Modal (MM-Attention) dentro del modelo DiT y observamos que los tokens de Consulta (Query) y Clave (Key) comparten un vector de sesgo que depende únicamente de la capa. Interpretamos este sesgo como la representación del comportamiento de edición inherente del modelo, mientras que la diferencia (delta) entre cada token y su sesgo correspondiente codifica las señales de edición específicas del contenido. Basándonos en esta idea, proponemos la Guía de Atención Relativa Grupal (Group Relative Attention Guidance, GRAG), un método simple pero efectivo que repondera los valores delta de diferentes tokens para modular el enfoque del modelo en la imagen de entrada en relación con la instrucción de edición, permitiendo un control continuo y de grano fino sobre la intensidad de la edición sin necesidad de ajuste alguno. Experimentos exhaustivos realizados en frameworks de edición de imágenes existentes demuestran que GRAG puede integrarse con tan solo cuatro líneas de código, mejorando consistentemente la calidad de la edición. Además, en comparación con la Guía Libre de Clasificador (Classifier-Free Guidance) comúnmente utilizada, GRAG logra un control más suave y preciso sobre el grado de edición. Nuestro código será liberado en https://github.com/little-misfit/GRAG-Image-Editing.
English
Recently, image editing based on Diffusion-in-Transformer models has
undergone rapid development. However, existing editing methods often lack
effective control over the degree of editing, limiting their ability to achieve
more customized results. To address this limitation, we investigate the
MM-Attention mechanism within the DiT model and observe that the Query and Key
tokens share a bias vector that is only layer-dependent. We interpret this bias
as representing the model's inherent editing behavior, while the delta between
each token and its corresponding bias encodes the content-specific editing
signals. Based on this insight, we propose Group Relative Attention Guidance, a
simple yet effective method that reweights the delta values of different tokens
to modulate the focus of the model on the input image relative to the editing
instruction, enabling continuous and fine-grained control over editing
intensity without any tuning. Extensive experiments conducted on existing image
editing frameworks demonstrate that GRAG can be integrated with as few as four
lines of code, consistently enhancing editing quality. Moreover, compared to
the commonly used Classifier-Free Guidance, GRAG achieves smoother and more
precise control over the degree of editing. Our code will be released at
https://github.com/little-misfit/GRAG-Image-Editing.